推荐|机器学习笔记值优化算法(十四)梯度下降法在凸函数上的收敛性

机器学习笔记之优化算法——梯度下降法在凸函数上的收敛性

引言

引言

本节将介绍梯度下降法在凸函数上的收敛性。

回顾：

收敛速度：次线性收敛

关于次线性收敛，分为两种判别类型： $\mathcal R$ -次线性收敛与 $\mathcal Q$ -次线性收敛。而次线性收敛的特点是：随着迭代次数的增加，相邻迭代步骤产生的目标函数结果 $f(x_k),f(x_{k+1})$ ，其差异性几乎完全相同：
$\mathop{\lim}\limits_{k \Rightarrow \infty}\frac{||x_{k+1} - x^*||}{||x_k - x^*||} = 1$
例如：如果数值解 $x_k$ 的目标函数结果 $f(x_k)$ 与目标函数最优解 $f^*$ 之间的差异性 $f(x_k) - f^*||$ 与迭代次数 $k$ 存在如下函数关系 $\mathcal G(k)$ ：
$||f(x_k) - f^*|| \leq \mathcal G(k) = \frac{1}{k}$
当 $k$ 充分大时， $f(x_k),f(x_{k+1})$ 与 $f^*$ 之间差异性的比值表示如下：
$\mathop{\lim}\limits_{k \Rightarrow \infty} \frac{||f(x_{k+1}) - f^*||}{||f(x_k) - f^*||} = \mathop{\lim}\limits_{k \Rightarrow \infty} \frac{k}{k+1} = 1$
也就是说：虽然随着 $k$ 的增加， $f(x_k)$ 在减小;但相邻迭代结果 $f(x_k),f(x_{k+1})$ 之间的差异性几乎可以忽略不计。那么称这种收敛速度为次线性收敛。
准确的说，是 $\Rightarrow 0$ 的次线性收敛：
$\mathop{\lim}\limits_{k \Rightarrow \infty} \{f(x_k)\} \Rightarrow \mathop{\lim}\limits_{k \Rightarrow \infty} \mathcal G(k) = 0$

二次上界引理

关于二次上界引理的描述表示如下：如果函数 $f(\cdot)$ 可微，并对应梯度函数 $\nabla f(\cdot)$ 满足利普希兹连续，则函数 $f(\cdot)$ 存在二次上界。即：
$\forall x,y \in \mathbb R^n \Rightarrow f(y) \leq f(x) + [\nabla f(x)]^T (y - x) + \frac{\mathcal L}{2}||y - x||^2$
而二次上界引理的作用是：可以通过该引理，得到最优步长上界的最小值：

假设 $x$ 固定，令 $ϕ (y) = f (x) + [\nabla f (x)]^{T} (y - x) + \frac{L}{2} ∣∣ y - x ∣ ∣^{2}$ ，通过选择合适的 $y_{min}$ ，使 $\phi(y)$ 达到最小值：
$y_{min} = \mathop{\arg\min}\limits_{y \in \mathbb R^n} \phi(y)$
令 $\nabla \phi(y) \triangleq 0$ ，有：
$y_{min} = x + \frac{1}{\mathcal L} \cdot [- \nabla f(x)]$
其中 $\nabla f(x)$ 即 $\mathcal P_k$ ，也就是最速下降方向；而 $\frac{1}{L}$ 则是最优步长的上确界：
$\leq \phi(y_{min}) = \mathop{\min}\limits_{y \in \mathbb R^n} \phi(y)$
也就是说：
- 在没有二次上界引理的约束下，步长 $\alpha_k$ 的选择在其定义域内没有约束： $+\infty)$ ；
- 经过二次上界引理的约束后，步长 $\alpha_k$ 的选择从原始的 $(0,+\infty)$ 约束至 $(0, \frac{1}{L}]$ 。

延伸：关于区间

(0, \frac{1}{L}]

可以模糊地认为满足

\text{Armijo}

准则。关于步长变量

\alpha

的函数

\phi(\alpha) = f(x_{k+1})

中，当

\alpha \in (0,1L]

时，等价于：存在一条直线

\mathcal L(\alpha)

，以该直线作为划分边界对应

\alpha

的范围正好是

(0, \frac{1}{L}]

：
吐槽：实际上用这张图是不太合理的，因为下面的图对应的

f(\cdot)

更加复杂，二次上界约束的范围仅仅在下面

\alpha

轴的绿色实线部分，但很明显，在该函数中，存在更优质的

\alpha

结果。

梯度下降法在凸函数上的收敛性

收敛性定理介绍

梯度下降法在凸函数上的收敛性定理表示如下：

条件：
- 函数 $f(\cdot)$ 向下有界，在定义域内可微，并且 $f(\cdot)$ 是凸函数；
- 关于 $f(\cdot)$ 的梯度函数 $\nabla f(\cdot)$ 满足利普希兹连续；
- 梯度下降法迭代过程中步长 $\alpha_k(k=1,2,3,\cdots)$ 有明确的约束范围： $α_{k} \in (0, \frac{1}{L}]$ ；
结论：数值解序列 $\{x_{k}\}_{k=0}^{\infty}$ 对应的目标函数结果 $\{f(x_k)\}_{k=0}^{\infty}$ 以 $O (\frac{1}{k})$ 收敛于目标函数最优解 $f^*$ 。
其中 $O (\frac{1}{k})$ 表示以 $G (k) = C \cdot \frac{1}{k}$ 的次线性收敛级别的收敛速度( $\mathcal C$ 为常数)。

证明过程

根据二次上界引理，依然将 $x$ 设为上一次迭代的数值解 $x_{i-1}$ ，对应的 $y$ 为当前迭代步骤的数值解 $x_i$ 。由于是梯度下降法，因而在线搜索方法的基础上，将方向 $\mathcal P_i$ 表示为最速下降方向 $\nabla f(x_{i-1})$ 步长依然使用步长变量 $\alpha$ 进行表示：
$x_i - x_{i - 1} = -\nabla f(x_{i-1}) \cdot \alpha$
将二次上界不等式进行相应替换：
将上式代入~
$f(x_i) \leq f(x_{i-1}) + [\nabla f(x_{i-1})]^T [-\nabla f(x_{i-1}) \cdot \alpha] + \frac{\mathcal L}{2} ||-\nabla f(x_{i-1}) \cdot \alpha||^2$
观察不等式右侧，可以继续化简：

将内积写作 $||\cdot||^2$ 的形式。
$\nabla f(x_{i-1}) \cdot \alpha||^2 = ||\nabla f(x_{i-1}) \cdot \alpha||^2$ ,这里消掉一个负号;
由于 $α \in (0, \frac{1}{L}]$ ,是一个标量，直接将其提到范数外侧。
$\mathcal I_{right} = f(x_{i-1}) - \alpha \cdot ||\nabla f(x_{i-1})||^2 + \frac{\mathcal L}{2} \cdot \alpha^2 \cdot ||\nabla f(x_{i-1})||^2$

由

α \leq \frac{1}{L}

可知：

L \leq \frac{1}{α}

。将该式代入到上式中：
消掉分母中的

\alpha

，并于前面的项结合。

I_{r i g h t} \leq f (x_{i - 1}) - α \cdot ∣∣\nabla f (x_{i - 1}) ∣ ∣^{2} + \frac{1}{2 α} \cdot α^{2} \cdot ∣∣\nabla f (x_{i - 1}) ∣ ∣^{2} = f (x_{i - 1}) - \frac{α}{2} \cdot ∣∣\nabla f (x_{i - 1}) ∣ ∣^{2}

基于梯度下降法，使用二次上界引理，可以得到

f(x_{i-1})

与

f(x_i)

之间存在如下关联关系：

f(x_i) \leq f(x_{i-1}) - \frac{\alpha}{2} \cdot ||\nabla f(x_{i-1})||^2\quad i=1,2,3,\cdots

根据凸函数的性质，必然有：函数

f(\cdot)

任一位置的切线，

f(\cdot)

均在该切线上方。见下图：
由于条件:

f(\cdot)

向下有界,因此，该函数必然’开口向上‘。

其中红色点

x^*,f^*)

表示最优点，以上一次迭代产生的

x_{i-1}

为切点做一条切线，必然有

x^*

在该切线函数上的函数值

\leq f^*

。

f^{'}

表示如下：

f(x_{i-1}) - [\nabla f(x_{i-1})]^T (x_{i-1} - x^*) \leq f^*

移项，从而有：

f(x_{i-1}) \leq f^* + [\nabla f(x_{i-1})]^T (x_{i-1} - x^*)

将上式代入，有：

\mathcal I_{right} \leq \underbrace{f^* + [\nabla f(x_{i-1})]^T (x_{i-1} - x^*)}_{替换f(x_{i-1})}- \frac{\alpha}{2} \cdot ||\nabla f(x_{i-1})||^2

为了凑平方项，将上式调整至如下形式：
将

- \frac{α}{2}

凑出

\alpha^2

,其他项跟随变化。

\mathcal I_{right} \leq -\frac{1}{2 \alpha} \left\{\alpha^2 ||\nabla f(x_{i-1})||^2 - 2\alpha \cdot [\nabla f(x_{i-1})]^T(x_{i-1} - x^*)\right\}

对大括号内的项进行配方：

Iright≤f∗−12α{α2||∇f(xi−1)||2−2α⋅[∇f(xi−1)]T(xi−1−x∗)+||xi−1−x∗||2⏟平方项−||xi−1−x∗||2}=f∗−12α[||α⋅∇f(xi−1)−(xi−1−x∗)||2−||xi−1−x∗||2]

观察中括号内第一项：

||\alpha \cdot \nabla f(x_{i-1}) - (x_{i-1} - x^*)||^2

，由于是范数的平方项，因而在范数内部添加一个负号不会影响其值的变化：

||\alpha \cdot \nabla f(x_{i-1}) - (x_{i-1} - x^*)||^2 = ||x_{i-1} - \alpha \cdot \nabla f(x_{i-1}) - x^*||^2

从迭代角度观察：

x_{i-1} - \alpha \cdot \nabla f(x_{i-1}) = x_{i}

，从而上式可继续化简为：
提一个负号，调换一下位置。

{||α⋅∇f(xi−1)−(xi−1−x∗)||2=||xi−x∗||2Iright≤f∗−12α[||xi−x∗||2−||xi−1−x∗||2]=f∗+12α[||xi−1−x∗||2−||xi−x∗||2]

至此，可以得到如下不等式结果：
$f(x_i) - f^* \leq \frac{1}{2\alpha}(||x_{i-1} - x^*||^2 - ||x_i - x^*||^2)$
观察：不等式左侧描述的意义是：当前迭代步骤的目标函数结果 $f(x_i)$ 与最优解 $f^*$ 之间的偏差。从初始化数值解 $x_0$ 开始，我们会得到一系列的不等式结果：
${f(x1)−f∗≤12α(||x0−x∗||2−||x1−x∗||2)f(x2)−f∗≤12α(||x1−x∗||2−||x2−x∗||2)⋮f(xk)−f∗≤12α(||xk−1−x∗||2−||xk−x∗||2)$

⎩ ⎨ ⎧ f (x_{1}) - f^{*} f (x_{2}) - f^{*} f (x_{k}) - f^{*} \leq \frac{1}{2 α} (∣∣ x_{0} - x^{*} ∣ ∣^{2} - ∣∣ x_{1} - x^{*} ∣ ∣^{2}) \leq \frac{1}{2 α} (∣∣ x_{1} - x^{*} ∣ ∣^{2} - ∣∣ x_{2} - x^{*} ∣ ∣^{2}) ⋮ \leq \frac{1}{2 α} (∣∣ x_{k - 1} - x^{*} ∣ ∣^{2} - ∣∣ x_{k} - x^{*} ∣ ∣^{2})

将这些不等式对应位置相加，有：

等式右侧的中间项都被消掉了~
因为 $||x_k - x^*||^2 \geq 0$ 恒成立，从而消掉含变量的项。
$\sum_{i=1}^k [f(x_i) - f^*] \leq \frac{1}{2\alpha}(|||x_0 - x^*||^2 - ||x_k - x^*||^2) \leq \frac{1}{2 \alpha} ||x_0 - x^*||^2$

关于我们要证的 $f(x_k) - f^*||$ ，可以表示为如下形式：

由于优化问题的收敛性，必然有： $f(x_{k}) \leq f(x_{k-1})\leq \cdots\leq f(x_1)$ ,从而每一项: $||f(x_k) - f^*|| \leq ||f(x_{k-1}) - f^*|| \leq \cdots \leq ||f(x_1) - f^*||$ ,从而有: $i = 1 \sum k [f (x_{k}) - f^{*}] \leq i = 1 \sum k [f (x_{i}) - f^{*}]$ 。
将上式结果带入~

$f(x_k) - f^* = \frac{1}{k} \sum_{i=1}^{k}[f(x_k) - f^*] \leq \frac{1}{k} \sum_{i=1}^{k}[f(x_i) - f^*] \leq \frac{1}{k} \left[\frac{1}{2\alpha}||x_0 - x^*||^2\right]$

观察：

[\frac{1}{2 α} ∣∣ x_{0} - x^{*} ∣ ∣^{2}]

中

α \in (0, \frac{1}{L}]

，

x_0,x^*

都是确定的常数，因而该项可视作常数

\mathcal C

。最终有：

f(x_k) - f^* \leq \frac{1}{k} \cdot \mathcal C

我们可以令

G (k) = \frac{1}{k} \cdot C

，可以看出：它就是一个级别为

\frac{1}{k}

的次线性收敛。

相关参考：
【优化算法】梯度下降法-凸函数的收敛性