机器学习笔记之优化算法——简单认识Wolfe Condition收敛性证明

引言

引言

上一节介绍了非精确搜索方法—— $Wolfe$ 准则。本节将简单认识： $Wolfe$ 准则的收敛性证明。

回顾： $Wolfe$ 准则

关于先搜索方法表示如下：
$x_{k+1} = x_k + alpha_k cdot mathcal P_k$
在数值解迭代过程中，当前时刻的迭代步长结果 $alpha_k$ 未确定的情况下，将步长设为变量 $α$ 。在下降方向 $P_k$ 确定的条件下，关于 $x_{k+1}$ 的目标函数结果 $f(x_{k+1})$ 可表示为关于变量 $α$ 的函数 $ϕ (α)$ ：
$f(x_{k+1}) = f(x_k + alpha cdot mathcal P_k) = phi(alpha)$
由于 ${f(x_k)}_{k=0}^{infty}$ 服从严格的单调性仅是目标函数收敛至最优解： ${f(x_k)}_{k=0}^{infty} Rightarrow f^*$ 的必要不充分条件；因而需要相比更严格的条件使目标函数收敛至最优解： $Armijo$ 准则、 $Glodstein$ 准则与 $Wolfe$ 准则：
$egin{aligned} & ext{Armijo Condition : } egin{cases} phi(alpha) < f(x_k) + mathcal C_1 cdot [ abla f(x_k)]^T mathcal P_k cdot alpha \ quad \ mathcal C_1 in (0,1) end{cases} \ & ext{Glodstein Condition : } egin{cases} f(x_k) + (1 - mathcal C) cdot [ abla f(x_k)]^T mathcal P_k cdot alpha leq phi(alpha) leq f(x_k) + mathcal C cdot [ abla f(x_k)]^T mathcal P_k cdot alpha \ quad \ mathcal C in egin{aligned}left(0,frac{1}{2} ight)end{aligned}$

而 $Wolfe$ 准则的初衷是为了处理 $Armijo$ 准则与 $Goldstein$ 准则的共同弊端：仅通过划分边界 $(Armijo)$ 或者划分边界构成的范围 $(Glodstein)$ 对相应的 $α$ 结果进行筛选，而被选择的 $α$ 结果是否存在意义 $?$ 未知。

基于上述因素， $Wlofe$ 准则在 $Armijo$ 准则的基础上，建立软性规则以筛选优质的 $α$ 结果：
其中 $egin{aligned}phi'(alpha) = frac{partial f(x_k + alpha cdot mathcal P_k)}{partial alpha} = left[ abla f(x_k + alpha cdot mathcal P_k) ight]^T mathcal P_k end{aligned}$ 。
$egin{cases} phi(alpha) leq f(x_k) +mathcal C_1 cdot [ abla f(x_k)]^T mathcal P_k cdot alpha \ phi'(alpha) geq mathcal C_2 cdot [ abla f(x_k)]^T mathcal P_k \ mathcal C_1 in (0,1) \ mathcal C_2 in (mathcal C_1,1) end{cases}$
本节以 $Wolfe$ 准则为例，简单介绍该准则的收敛性证明。

准备工作

推导条件介绍

关于目标函数优化的终极目标： $mathop{min}limits_{mathcal X in mathbb R^n} f(mathcal X)$ ，因而对于目标函数 $f (X)$ ，需要满足：向下有界，并且在定义域内连续可微；
这属于函数自身的性质，在迭代过程中不能无限地小下去。
关于 $f (X)$ 的梯度函数 $\nabla f (X)$ ，需要在定义域内满足利普希茨连续 $(Lipschitz Continuity)$ 。对应数学符号表示如下：
其中 $L$ 是一个常数。
$R^n, exist mathcal L :quad s.t. || abla f(x) - abla f(hat x)|| leq mathcal L cdot ||x - hat x||$
如果一个普通函数 $G (x)$ 满足利普希兹连续，可以将上述描述使用 $G (x)$ 进行替换，并进行简单变换：
$∣ ∣ G ( x ) − G ( x ^ ) ∣ ∣ ≤ L ⋅ ∣ ∣ x − x ^ ∣ ∣ ⇒ ∣ ∣ G ( x ) − G ( x ^ ) x − x ^ ∣ ∣ ≤ L ||mathcal G(x) - mathcal G(hat x)|| leq mathcal L cdot ||x - hat x|| Rightarrow left|left|frac{mathcal G(x) - mathcal G(hat x)}{x - hat x} ight| ight| leq mathcal L$
关于小于号左侧的式子格式： $egin{aligned}left|left|frac{mathcal G(x) - mathcal G(hat x)}{x - hat x} ight| ight|end{aligned}$ ，根据拉格朗日中值定理，可将该式表示为如下形式：
$egin{aligned}left|left|frac{mathcal G(x) - mathcal G(hat x)}{x - hat x} ight| ight|end{aligned}$
从而将利普希兹连续描述为如下形式：
$\exists ξ \in (x, \overset{x}{^}) \Rightarrow ∣∣ G^{'} (ξ) ∣∣ \leq L$
这意味着(不严谨)：关于函数 $G (x)$ 的一阶导函数 $G^{'} (x)$ 存在上界 $L$ 。回到条件中，关于 $\nabla f (X)$ 服从利普希兹连续可理解为：对目标函数的二阶梯度结果进行约束：
$egin{aligned}frac{partial abla f(mathcal X)}{partial mathcal X}end{aligned}$
根据二阶梯度的几何意义，该条件本质上是对目标函数 $f (X)$ 中斜率的变化量进行约束。关于不满足利普希兹连续的函数示例： $f(x) = x^2$ 。对应函数图像表示如下：

关于该函数的一阶导函数 $egin{aligned}frac{partial f}{partial x} = 2xend{aligned}$ ，是一个关于 $x$ 的一次函数，在定义域 $x \in R$ 中，其并不受某常数 $L$ 的约束。
当 $x \Rightarrow \infty$ 时，对应的 $egin{aligned}frac{partial f}{partial x} Rightarrow infty end{aligned}$ 。
再如： $egin{aligned}f(x) = frac{1}{x}end{aligned}$ 。对应函数图像表示如下：

同理，关于该函数的一阶导函数 $egin{aligned}frac{partial f}{partial x} = -frac{1}{x^2}end{aligned}$ ，在其定义域 $x > 0$ 中，其同样不受某常数 $L$ 的约束。
当 $x \Rightarrow 0$ 时，对应的 $egin{aligned}frac{partial f}{partial x} = -inftyend{aligned}$ 。
可以看出：上述两个例子在其对应的定义域内均是连续的，但它们不满足利普希兹连续。也就是说：利普希兹连续的条件更强。
关于连续相关概念按照条件强度对比表示为：连续 $<$ 一致连续 $<$ 利普希兹连续(利普希兹条件)。
- 上述条件强度可理解为：
  若某函数在其定义域内满足利普希兹连续，那么该函数一定满足一致连续和连续，反之不行；
  同理，若某函数在其定义域内满足一致连续，那么该函数一定满足连续，反之不行。
- 其中一致连续与连续之间的区别可描述为：连续仅要求函数在其定义域内没有断点或者跳跃的情况;而一致连续在没有断点或者跳跃的基础上，还需要满足:函数 $f (\cdot)$ 在定义域内任意的两个点 $x 、 y$ ，如果 $x$ 与 $y$ 充分接近时，对应的 $f (x)$ 与 $f (y)$ 也要充分接近。很明显，上例中的 $egin{aligned}f(x) = frac{1}{x}end{aligned}$ 就不是一致连续：首先 $f (x)$ 在其定义域 $(0, + \infty)$ 中连续，但如果选择无限靠近 $0$ 的两个比较接近的点，它们的函数值并不充分接近 $(\infty)$ 。
条件 $3$ ： $P_k$ 是下降方向 $(Descent Direction)$ 。
这里使用的是更加泛化的‘下降方向’，而不仅仅是最速下降方向。其在非精确搜索方法中被确定下的。关于下降方向详见线搜索方法——精确搜索。
$P_k$ 作为下降方向，必然有：
$f(x_k)]^T mathcal P_k = || abla f(x_k)|| cdot |mathcal P_k|| cos heta_k> 0$
其中 $heta_k$ 是负梯度方向 $f(x_k)$ 与下降方向 $P_k$ 之间的夹角，因而该夹角的范围必然在 $egin{aligned}left(-frac{pi}{2},frac{pi}{2} ight)end{aligned}$ 之间。也就是说： $heta_k >0$ 恒成立：
也可以理解为 $f(x_k)$ 与 $P_k$ 两者之间的夹角是锐角(没有先后顺序)，对应的范围是 $egin{aligned}left(0,frac{pi}{2} ight)end{aligned}$ 。
$egin{aligned} cos heta_k = frac{-[ abla f(x_k)]^T mathcal P_k}{|| abla f(x_k)||cdot ||mathcal P_k||} > 0 end{aligned}$
迭代过程中的最优步长 $alpha_k(k=1,2,3,cdots)$ 满足 $Wolfe$ 准则：
该条件不再赘述。
$egin{cases} f(x_{k+1}) < f(x_k) + mathcal C_1 cdot [ abla f(x_k)]^T mathcal P_k cdot alpha_k \ [ abla f(x_{k+1})]^T mathcal P_k geq mathcal C_2 cdot [ abla f(x_k)]^T mathcal P_k \ mathcal C_1 in (0,1) \ mathcal C_2 in (mathcal C_1,1) end{cases}$

推导结论介绍

关于最终需要证明的收敛性，自然是数值解序列 ${x_k}_{k=0}^{infty}$ 对应的目标函数结果 ${f(x_k)}_{k=0}^{infty}$ 收敛到某最优解 $f^*$ ：
${f(x_k)}_{k=0}^{infty} Rightarrow f^*$
如果从梯度的角度观察，关于数值解序列对应的目标函数梯度结果 $f(x_k)}_{k=0}^{infty}$ 收敛到 $0$ 即可：
常数函数对应的梯度范数就是 $0$ 。
$mathop{lim}limits_{k Rightarrow + infty} || abla f(x_k)|| = 0$
根据上面关于 $heta_k$ 的描述，将其控制为：
$heta_k]^2 geq eta$
其中 $η$ 表示一个 $> 0$ 的小的常数。基于此，关于 $egin{aligned}sum_{k=0}^{infty} [cos heta_k]^2end{aligned}$ 的结果必定是发散的。也就是说： $+ \infty$ 个 $> 0$ 的较小常数相加必然还是 $+ \infty$ 。
$sum_{k=0}^{+infty} [cos heta_k]^2 = +infty$
如果将推导结论设置为如下形式：
$sum_{k=0}^{+infty} [cos heta_k]^2 cdot || abla f(x_k)||^2 < +infty$
那么该式子必然等价于：
之所以等价是因为上式中的项 $sum_{k=0}^{+infty} [cos heta_k]^2 cdot || abla f(x_k)||^2$ 与关于 $heta_k$ 的项 $sum_{k=0}^{+infty} [cos heta_k]^2$ 相矛盾。这只有一种解释：

随着 $k$ 值的增加，使得 $mathop{lim}limits_{k Rightarrow +infty} || abla f(x_k)|| = 0$ ；
从而使 $mathop{lim}limits_{k Rightarrow +infty} || abla f(x_k)||^2 = 0$ ；
从而使 $mathop{lim}limits_{k Rightarrow +infty}[cos heta_k]^2 cdot || abla f(x_k)||^2 < mathop{lim}limits_{k Rightarrow +infty} [cos heta_k]^2 = eta$
最终使 $sum_{k=0}^{+infty} [cos heta_k]^2 cdot || abla f(x_k)||^2 < sum_{k=0}^{+infty}[cos heta_k]^2 = +infty$
$sum_{k=0}^{+infty} [cos heta_k]^2 cdot || abla f(x_k)||^2 < +infty Leftrightarrow lim_{k Rightarrow infty} || abla f(x_k)|| = 0$

最终可以描述出 ${f(x_k)}_{k=0}^{infty}$ 可以收敛到最优解。

关于 $Wolfe$ 准则收敛性证明的推导过程

证明：

基于 $Wolfe$ 准则中的 $f(x_{k+1})]^T mathcal P_k geq mathcal C_2 cdot [ abla f(x_k)]^T mathcal P_k$ ，将不等式两端同时减去 $f(x_k)]^T mathcal P_k$ ，目的是凑出利普希兹条件：
$egin{aligned} & quad [ abla f(x_{k+1})]^T mathcal P_k - [ abla f(x_k)]^T mathcal P_k geq mathcal C_2 cdot [ abla f(x_k)]^T mathcal P_k - [ abla f(x_k)]^T mathcal P_k \ & Rightarrow left{ [ abla f(x_{k+1})] - [ abla f(x_k)] ight}^T mathcal P_k geq (mathcal C_2 -1) cdot [ abla f(x_k)]^T mathcal P_k end{aligned}$
观察不等式左侧，可以将 $f(x_{k+1})] - [ abla f(x_k)] ight}^T mathcal P_k$ 视作两个向量之间的内积。基于此，必然满足如下表达：
因为 $cos θ$ 的值域是 $[- 1, 1]$ 。其中 $θ$ 表示向量 $f(x_{k+1})] - [ abla f(x_k)]$ 与向量 $P_k$ 之间的夹角。
$f(x_{k+1})] - [ abla f(x_k)] ight}^T mathcal P_k = ||[ abla f(x_{k+1})] - [ abla f(x_k)]|| cdot ||mathcal P_k|| cdot cos heta \ quad \ ||[ abla f(x_{k+1})] - [ abla f(x_k)]|| cdot ||mathcal P_k|| cdot cos heta leq ||[ abla f(x_{k+1})] - [ abla f(x_k)]|| cdot ||mathcal P_k||$
综上，可将式子整理为：
$f(x_{k+1})] - [ abla f(x_k)]|| cdot ||mathcal P_k|| geq left{ [ abla f(x_{k+1})] - [ abla f(x_k)] ight}^T mathcal P_k geq (mathcal C_2 -1) cdot [ abla f(x_k)]^T mathcal P_k$
观察式子 $f(x_{k+1})] - [ abla f(x_k)]|| cdot ||mathcal P_k||$ ，使用利普希兹条件将其转化为：
- 其中 $L$ 是利普希兹条件中的常数;
- 将 $x_{k+1} = x_k + alpha_k cdot mathcal P_k$ 代入。
$egin{aligned} ||[ abla f(x_{k+1})] - [ abla f(x_k)]|| cdot ||mathcal P_k|| & leq mathcal L cdot ||x_{k+1} - x_k|| cdot ||mathcal P_k||\ & = mathcal L cdot ||alpha_k cdot mathcal P_k|| cdot ||mathcal P_k||\ & = mathcal L cdot alpha_k cdot ||mathcal P_k||^2 end{aligned}$
至此，可以得到式子：
由于 $alpha_k,||mathcal P_k||^2$ 均恒正;且不等式右侧 $C_2 -1 <0,[ abla f(x_k)]^T mathcal P_k <0$ 恒成立;因此 $L$ 必然是一个 $> 0$ 的值。
$alpha_k cdot ||mathcal P_k||^2 geq (mathcal C_2 -1) cdot [ abla f(x_k)]^T mathcal P_k$
将 $P_k||^2$ 移到大于等于号右侧，符号不发生变化：
$alpha_k geq frac{mathcal C_2 - 1}{mathcal L} cdot frac{[ abla f(x_k)]^T mathcal P_k}{||mathcal P_k||^2}$
至此，将上式与 $Wolfe$ 准则的第一项关联起来：
由于 $C_1 cdot [ abla f(x_k)]^T mathcal P_k < 0$ 那么将上式代入，必然有：
就是‘负的不那么厉害了~’
$C_1 cdot [ abla f(x_k)]^T mathcal P_k cdot left(frac{mathcal C_2 - 1}{mathcal L} cdot frac{[ abla f(x_k)]^T mathcal P_k}{||mathcal P_k||^2} ight) geq mathcal C_1 cdot [ abla f(x_k)]^T mathcal P_k cdot alpha_k$
从而有：
$f(x_{k+1}) leq f(x_k) + mathcal C_1 cdot [ abla f(x_k)]^T mathcal P_k cdot left(frac{mathcal C_2 - 1}{mathcal L} cdot frac{[ abla f(x_k)]^T mathcal P_k}{||mathcal P_k||^2} ight)$
观察小于等于号右侧后一项：将其描述成分式形式，会包含一个关于 $f(x_k)]^T mathcal P_k$ 的平方项，因此使用 $f(x_k)]^T mathcal P_k = -|| abla f(x_k)|| cdot ||mathcal P_k|| cdot cos heta_k$ 进行替换：
- 其中负号消掉了;
- $P_k||^2$ 消掉了。
  $egin{aligned} f(x_{k+1}) & leq f(x_k) + frac{mathcal C_1 cdot (mathcal C_2 - 1)}{mathcal L} cdot frac{|| abla f(x_k)||^2 cdot ||mathcal P_k||^2 cdot [cos heta_k]^2}{||mathcal P_k||^2} \ & = f(x_k) + frac{mathcal C_1 cdot (mathcal C_2 - 1)}{mathcal L} || abla f(x_k)||^2 cdot [cos heta_k]^2 end{aligned}$
此时得到一个新的关于 ${f(x_{k})}_{k=0}^{infty}$ 的递推式。从而可以得到 $f(x_{k+1})$ 与 $f(x_0)$ 之间的关联关系：
- 相当于将每一次迭代中间结果累加。
- 将 $egin{aligned}frac{mathcal C_1 cdot (mathcal C_2 - 1)}{mathcal L} || abla f(x_k)||^2 cdot [cos heta_k]^2end{aligned}$ 记作 $I_k$ 。
- 展开过程中由于 $egin{aligned}frac{mathcal C_1 cdot (mathcal C_2 - 1)}{mathcal L} < 0end{aligned}$ 是一个常数，直接提出即可。
  $egin{aligned} f(x_{k+1}) & leq f(x_k) + mathcal I_k \ & leq f(x_{k-1}) + mathcal I_{k-1} + mathcal I_k \ & leq cdots \ & leq f(x_0) + frac{mathcal C_1 cdot(mathcal C_2 - 1)}{mathcal L} sum_{j=0}^{k} mathcal I_j \ & = f(x_0) + frac{mathcal C_1 cdot (mathcal C_2 - 1)}{mathcal L} sum_{j=0}^k || abla f(x_j)||^2 cdot [cos heta_j]^2 end{aligned}$
观察上式，由于目标函数 $f (\cdot)$ 是向下有界的，这意味着：从 $f(x_0)$ 开始迭代的过程中，每一次迭代减少的程度：
因为描述迭代过程中减小的幅度，那么 $egin{aligned}frac{mathcal C_1 cdot (mathcal C_2 - 1)}{mathcal L}end{aligned}$ 的负号就消掉了，而对应数值部分作为常数不会对极限产生影响，因而整个项都可以被忽略掉。
$|f(x_{j+1}) - f(x_j)| < infty quad j in {0,1,2,3,cdots}$
恒成立。因为优化目标是 $mathop{min}limits_{mathcal X in mathbb R^n} f(mathcal X)$ ,而不是让这个迭代结果一直无限地小下去。

从而当 $j \to \infty$ 时，由于迭代的 $j$ 项中每一项均 $< \infty$ ，那么最终的累加结果必然也 $< \infty$ ：
$mathop{lim}limits_{k Rightarrow infty} sum_{j=0}^{k} || abla f(x_j)||^2 cdot [cos heta_j]^2 < infty$
整理可得：
$sum_{j=0}^{infty}|| abla f(x_j)||^2 cdot [cos heta_j]^2 < infty$

证毕。

文章知识点与官方知识档案匹配，可进一步学习相关知识

算法技能树首页概览51117 人正在系统学习中

机器学习笔记之优化算法(八)简单认识Wolfe Condition的收敛性证明引言

机器学习笔记之优化算法——简单认识Wolfe Condition收敛性证明

引言

回顾： $Wolfe$ 准则

准备工作

推导条件介绍

推导结论介绍

关于 $Wolfe$ 准则收敛性证明的推导过程

评论记录：

机器学习笔记之优化算法——简单认识Wolfe Condition收敛性证明

引言

回顾： Wolfe ext{Wolfe} Wolfe准则

准备工作

推导条件介绍

推导结论介绍

关于 Wolfe ext{Wolfe} Wolfe准则收敛性证明的推导过程

评论记录：

回顾： $Wolfe$ 准则

关于 $Wolfe$ 准则收敛性证明的推导过程