机器学习之拉格朗日乘子法（Lagrange Multiplier) 和KKT条件

编程入门行业动态更新时间:2024-10-11 05:23:31

机器学习之拉格朗日乘子法（Lagrange Multiplier) 和KKT条件

在求取有约束条件的优化问题时，拉格朗日乘子法（Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法，对于等式约束的优化问题，可以应用拉格朗日乘子法去求取最优值；如果含有不等式约束，可以应用KKT条件去求取。当然，这两个方法求得的结果只是必要条件，只有当是凸函数的情况下，才能保证是充分必要条件。KKT条件是拉格朗日乘子法的泛化。之前学习的时候，只知道直接应用两个方法，但是却不知道为什么拉格朗日乘子法（Lagrange Multiplier) 和KKT条件能够起作用，为什么要这样去求取最优值呢？

本文将首先把什么是拉格朗日乘子法（Lagrange Multiplier) 和KKT条件叙述一下；然后开始分别谈谈为什么要这样求最优值。

一. 拉格朗日乘子法（Lagrange Multiplier) 和KKT条件

一般情况下，最优化问题会碰到一下三种情况：

（1）无约束条件

这是最简单的情况，解决方法通常是函数对变量求导，令求导函数等于0的点可能是极值点。将结果带回原函数进行验证即可。

（2）等式约束条件

设目标函数为f(x)，约束条件为hk(x)，形如

s.t. 表示subject to ，“受限于”的意思，l表示有l个约束条件。

则解决方法是消元法或者拉格朗日法。消元法比较简单不在赘述，拉格朗日法这里在提一下，因为后面提到的KKT条件是对拉格朗日乘子法的一种泛化。

定义拉格朗日函数F(x)，

其中λk是各个约束条件的待定系数。

然后解变量的偏导方程：

......,

如果有l个约束条件，就应该有l+1个方程。求出的方程组的解就可能是最优化值（高等数学中提到的极值），将结果带回原方程验证就可得到解。

（3）不等式约束条件

设目标函数f(x)，不等式约束为g(x)，有的教程还会添加上等式约束条件h(x)。此时的约束优化问题描述如下：

则我们定义不等式约束下的拉格朗日函数L，则L表达式为：

其中f(x)是原目标函数，hj(x)是第j个等式约束条件，λj是对应的约束系数，gk是不等式约束，uk是对应的约束系数。

此时若要求解上述优化问题，必须满足下述条件（也是我们的求解条件）：

这些求解条件就是KKT条件。(1)是对拉格朗日函数取极值时候带来的一个必要条件，(2)是拉格朗日系数约束（同等式情况），(3)是不等式约束情况，(4)是互补松弛条件，(5)、(6)是原约束条件。

对于一般的任意问题而言，KKT条件是使一组解成为最优解的必要条件，当原问题是凸问题的时候，KKT条件也是充分条件。

关于条件(3)，后面一篇博客中给出的解释是：我们构造L(x,λ,u)函数，是希望L(x,λ,u)<=f(x)的（min表示求最小值）。在L(x,λ,u)表达式中第二项为0，若使得第三项小于等于0就必须使得系数u>=0，这也就是条件(3)。

关于条件(4),直观的解释可以这么看:要求得L(x,λ,u)的最小值一定是三个公式项中取得最小值，此时第三项最小就是等于0值的时候。稍微正式一点的解释，是由松弛变量推导而来。

为方便表示，举个简单的例子：

现有如下不等式约束优化问题：

此时引入松弛变量可以将不等式约束变成等式约束。设a1和b1为两个松弛变量，则上述的不等式约束可写为：

则该问题的拉格朗日函数为：

根据拉格朗日乘子法，求解方程组：

则

同样 u2b1=0，来分析g2(x)起作用和不起作用约束。

于是推出条件：

对于第(1)类的优化问题：

常常使用的方法就是Fermat定理，即使用求取f(x)的导数，然后令其为零，可以求得候选最优值，再在这些候选值中验证；如果是凸函数，可以保证是最优解。

对于第(2)类的优化问题：

常常使用的方法就是拉格朗日乘子法（Lagrange Multiplier) ，即把等式约束h_i(x)用一个系数与f(x)写为一个式子，称为拉格朗日函数，而系数称为拉格朗日乘子。通过拉格朗日函数对各个变量求导，令其为零，可以求得候选值集合，然后验证求得最优值。

对于第(3)类的优化问题：

常常使用的方法就是KKT条件。同样地，我们把所有的等式、不等式约束与f(x)写为一个式子，也叫拉格朗日函数，系数也称拉格朗日乘子，通过一些条件，可以求出最优值的必要条件，这个条件称为KKT条件。

KKT条件

对于含有不等式约束的优化问题，如何求取最优值呢？常用的方法是KKT条件，同样地，把所有的不等式约束、等式约束和目标函数全部写为一个式子L(a, b, x)= f(x) + a*g(x)+b*h(x)，KKT条件是说最优值必须满足以下条件：

1. L(a, b, x)对x求导为零；

2. h(x) =0;

3. a*g(x) = 0;

求取这三个等式之后就能得到候选最优值。其中第三个式子非常有趣，因为g(x)<=0，如果要满足这个等式，必须a=0或者g(x)=0. 这是SVM的很多重要性质的来源，如支持向量的概念。

二. 为什么拉格朗日乘子法（Lagrange Multiplier) 和KKT条件能够得到最优值？

为什么要这么求能得到最优值？先说拉格朗日乘子法，设想我们的目标函数z = f(x), x是向量, z取不同的值，相当于可以投影在x构成的平面（曲面）上，即成为等高线，如下图，目标函数是f(x, y)，这里x是标量，虚线是等高线，现在假设我们的约束g(x)=0，x是向量，在x构成的平面或者曲面上是一条曲线，假设g(x)与等高线相交，交点就是同时满足等式约束条件和目标函数的可行域的值，但肯定不是最优值，因为相交意味着肯定还存在其它的等高线在该条等高线的内部或者外部，使得新的等高线与目标函数的交点的值更大或者更小，只有到等高线与目标函数的曲线相切的时候，可能取得最优值，如下图所示，即等高线和目标函数的曲线在该点的法向量必须有相同方向，所以最优值必须满足：f(x)的梯度 = a* g(x)的梯度，a是常数，表示左右两边同向。这个等式就是L(a,x)对参数求导的结果。

而KKT条件是满足强对偶条件的优化问题的必要条件，可以这样理解：我们要求min f(x), L(a, b, x) = f(x) + a*g(x) + b*h(x)，a>=0，我们可以把f(x)写为：max_{a,b} L(a,b,x)，为什么呢？因为h(x)=0, g(x)<=0，现在是取L(a,b,x)的最大值，a*g(x)是<=0，所以L(a,b,x)只有在a*g(x) = 0的情况下才能取得最大值，否则，就不满足约束条件，因此max_{a,b} L(a,b,x)在满足约束条件的情况下就是f(x)，因此我们的目标函数可以写为 min_x max_{a,b} L(a,b,x)。如果用对偶表达式： max_{a,b} min_x L(a,b,x)，由于我们的优化是满足强对偶的（强对偶就是说对偶式子的最优值是等于原问题的最优值的），所以在取得最优值x0的条件下，它满足 f(x0) = max_{a,b} min_x L(a,b,x) = min_x max_{a,b} L(a,b,x) =f(x0)，我们来看看中间两个式子发生了什么事情：

f(x0) = max_{a,b} min_x L(a,b,x) = max_{a,b} min_x f(x) + a*g(x) + b*h(x) = max_{a,b} f(x0)+a*g(x0)+b*h(x0) = f(x0)

可以看到上述加黑的地方本质上是说 min_x f(x) + a*g(x) + b*h(x) 在x0取得了最小值，用fermat定理，即是说对于函数 f(x) + a*g(x) + b*h(x)，求取导数要等于零，即

f(x)的梯度+a*g(x)的梯度+ b*h(x)的梯度 = 0

这就是kkt条件中第一个条件：L(a, b, x)对x求导为零。

而之前说明过，a*g(x) = 0，这时kkt条件的第3个条件，当然已知的条件h(x)=0必须被满足，所有上述说明，满足强对偶条件的优化问题的最优值都必须满足KKT条件，即上述说明的三个条件。可以把KKT条件视为是拉格朗日乘子法的泛化。

#!/usr/bin/env Python
# coding=utf-8from __future__ import division
from importlib import reload
import sys
reload(sys)import random
import numpy as np
import matplotlib.pyplot as plt  def sign(v):if v>=0:return 1else:return -1def train(train_num,train_datas,lr):w=0.0b=0datas_len = len(train_datas)alpha = [0 for i in range(datas_len)]train_array = np.array(train_datas)gram = np.matmul(train_array[:,0:-1] , train_array[:,0:-1].T)for idx in range(train_num):tmp=0i = random.randint(0,datas_len-1)yi=train_array[i,-1]for j in range(datas_len):tmp+=alpha[j]*train_array[j,-1]*gram[i,j]tmp+=bif(yi*tmp<=0):alpha[i]=alpha[i]+lrb=b+lr*yifor i in range(datas_len):w+=alpha[i]*train_array[i,0:-1]*train_array[i,-1]return w,b,alpha,gramdef plot_points(train_datas,w,b):plt.figure()x1 = np.linspace(0, 8, 100)x2 = (-b-w[0]*x1)/(w[1]+1e-10)plt.plot(x1, x2, color='r', label='y1 data')datas_len=len(train_datas)for i in range(datas_len):if(train_datas[i][-1]==1):plt.scatter(train_datas[i][0],train_datas[i][1],s=50)  else:plt.scatter(train_datas[i][0],train_datas[i][1],marker='x',s=50)  plt.show()if __name__=='__main__':train_data1 = [[1, 1, 1], [2, 2, 1], [2, 0, 1]]  # 正样本
train_data2 = [[0, 0, -1], [1, 0, -1], [0, 1, -1]]  # 负样本train_datas = train_data1 + train_data2      w,b,alpha,gram=train(train_num=500,train_datas=train_datas,lr=0.01)# plot_points(train_datas,w,b)
print(w)print(b)

更多推荐

机器学习之拉格朗日乘子法（Lagrange Multiplier) 和KKT条件

本文发布于:2024-02-05 08:42:02，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1673871.html