机器学习笔记之优化算法——线搜索方法[方向角度]

引言

引言

上一节对优化问题进行了简单描述，并从逻辑认知的角度介绍了线搜索方法与信赖域方法。本节将关注线搜索方法，并重点关注它的方向部分。

回顾：线搜索方法

线搜索方法是一种通过求解数值解来计算最优解的方法。其特点是：在数值解的迭代求解过程中，分为方向与步长分别执行，并且先定方向，后定步长。对应的数学符号表达如下：
$x_{k+1} = x_k + alpha_k cdot mathcal P_k$
其中 $alpha_k$ 表示步长， $P_k$ 表示方向。并且步长的重要程度高于方向。

从方向角度观察线搜索方法

我们首先对优化问题(场景)进行一系列的假设以达到简化作用。

场景构建

假设1：目标函数结果的单调性

关于变量 $X$ 的目标函数 $f (X)$ ，我们最终目标是选择一个合适的 $X = x$ ，使得目标函数达到最值。这里以最小值为例，对应数学符号表示如下：
$mathop{min}limits_{mathcal X in mathbb R^n} f(mathcal X)$

迭代之前，我们给定关于 $X$ 的初始化信息： $x_0$ ，并在迭代过程中通过策略得到一系列数值解： ${x_k}_{k=1}^{infty}$ ，它们对应的目标函数结果表示如下：
${f(x_k)}_{k=0}^{infty}$

上一节介绍过，目标函数结果所描述的数列存在单调性，但这个单调性可能是不严格的：

如果数列满足严格的单调性，有：
$f(x_{k+1}) < f(x_k) quad f(x_k),f(x_{k+1}) in {f(x_k)}_{k=0}^{infty}$
相反，如果数列的单调性不严格，有：
$f(x_{k+1}) < f(x_{k-m}) quad f(x_{k+1}),f(x_{k-m}) in {f(x_k)}_{k=0}^{infty};m in [0,k]$

也就是说，严格的单调性需要数列中的元素按照顺序严格递减；而不严格的单调性仅需要趋势递减即可，局部元素之间的大小关系并不是关注的重点。
在真实情况下，单调性的严格/不严格并不是绝对的。在迭代之前，初始化信息 $x_0$ 一般是随机初始化，从而导致 $x_0$ 到最优解 $x^*$ 的距离是随机的。因此在迭代初期，我们通常会采用不严格的递减方式，随着数值解 $x_k$ 逐步逼近最优解 $x^*$ ,我们会调整参数 $m$ ,使其逐步地向严格的递减方式转化。

在方向角度观察线搜索方法之前，为简化运算，设定 ${f(x_k)}_{k=0}^{infty}$ 服从严格的单调性：
其中 $N$ 表示非负整数，描述数值解的编号。
$f(x_{k+1}) < f(x_k)$

假设2：屏蔽步长 $alpha_k$ 对线搜索方法过程的影响

上一节同样介绍了：线搜索方法对于步长的要求比较严格，较大或者较小的步长都会对线搜索方法产生负面影响。

不否认的是：较大的步长可能会影响方向，从而使线搜索方法失效；但较小的步长仅会使计算(迭代)代价提升，从而在真实情况中不太可用，但并不会使算法失效，也不会对其收敛性产生太大影响。

较小的步长仅仅使收敛速度慢了，而不是不收敛了。
‘较大步长可能影响方向’示例见文章末尾。

由于这里仅讨论方向角度的线搜索方法，因此这里关于步长的假设是：在线搜索方法的迭代过程中，其步长 $alpha_k$ 足够小，小到可以忽略不计。
由于‘步长’ $alpha_k$ 的实际意义，因而它一定是一个正值。

假设3：限定向量 $P_k$ 的大小

向量 $P_k$ 既包含大小，也包含方向。而观察方向角度的线搜索方法中， $P_k$ 的大小同样不是我们关注的对象。因此我们需要将 $P_k$ 简化为单位向量。即：
$P_k|| = 1 quad k=1,2,3,cdots$
关于向量大小的约束我们早在支持向量机——模型构建思路中关于约束条件，消除等比例缩放对函数间隔 $(Functional Margin)$ 的影响时使用的方法：
$y^{(i)} left(mathcal W^T x^{(i)} + b ight) > 0 Rightarrow y^{(i)} left(mathcal W^T x^{(i)} + b ight) geq 1$
实际上，假设 $2$ 与假设 $3$ 可以进行合并。当 $P_k$ 化简为相应的单位向量时，该向量一定与 $P_k$ 线性相关。化简后产生的标量系数可以与步长做乘法，从而被忽略掉。

下降方向的推导过程

基于上述假设，我们可以对数值解 $x_{k+1}$ 对应的目标函数结果 $f(x_{k+1})$ 通过泰勒公式进行展开：
仅展开至 $2$ 阶。

\begin{aligned} f (x_{k + 1}) & = f (x_{k} + α_{k} \cdot P_{k}) \\ = f (x_{k}) + \frac{1}{1!} {[\nabla f (x_{k})]}^{T} \cdot (x_{k + 1} - x_{k}) + \frac{1}{2!} (x_{k + 1} - x_{k})^{T} [\nabla^{2} f (x_{k})] (x_{k + 1} - x_{k}) \end{aligned}

$egin{aligned} f(x_{k+1}) & = f(x_k + alpha_k cdot mathcal P_k) \ & = f(x_k) + frac{1}{1!} left[ abla f(x_k) ight]^T cdot (x_{k+1} - x_k) + frac{1}{2!} (x_{k+1} - x_k)^T left[ abla^2 f(x_k) ight](x_{k+1} - x_k) end{aligned}$

f (x_{k + 1}) = f (x_{k} + α_{k} \cdot P_{k}) = f (x_{k}) + \frac{1}{1 !} [\nabla f (x_{k})]^{T} \cdot (x_{k + 1} - x_{k}) + \frac{1}{2 !} (x_{k + 1} - x_{k})^{T} [\nabla^{2} f (x_{k})] (x_{k + 1} - x_{k})

将

x_{k+1} - x_k = alpha_k mathcal P_k

代入，化简有：

\begin{aligned} f (x_{k + 1}) = f (x_{k}) + {[\nabla f (x_{k})]}^{T} \cdot α_{k} P_{k} + \frac{1}{2} (α_{k} P_{k})^{T} [\nabla^{2} f (x_{k})] α_{k} P_{k} \end{aligned}

观察后一项：

\begin{aligned} \frac{1}{2} (α_{k} P_{k})^{T} [\nabla^{2} f (x_{k})] α_{k} P_{k} \end{aligned}

，其中

alpha_kmathcal P_k

是

n \times 1

的向量，这意味着：该项的结果是一个标量。并且是与

||alpha_kmathcal P_k||

下降方向的几何意义

观察上面的公式：

\begin{aligned} {[\nabla f (x_{k})]}^{T} \cdot P_{k} < 0 \end{aligned}

$egin{aligned}left[ abla f(x_k) ight]^T cdot mathcal P_k < 0end{aligned}$

[\nabla f (x_{k})]^{T} \cdot P_{k} < 0

不等式左侧的本质上就是向量

f(x_k)

与向量

P_k

之间的内积结果。将其继续展开：

f(x_k)|| cdot ||mathcal P_k|| cdot cos heta <0

其中

f(x_k)||,||mathcal P_k||=1

分别表示上述两向量的大小，均恒正；这意味着

cos θ < 0

，而

θ

表示向量

f(x_k)

与向量

P_k

之间的夹角。这意味着：向量

f(x_k)

与向量

P_k

的夹角范围在

\begin{aligned} (\frac{π}{2}, \frac{3 π}{2}) \end{aligned}

之间。

观察上述图像：

其中蓝色虚线表示 $X$ 变量空间中，过点 $x_k$ 与目标函数等高线的切线；
与蓝色虚线垂直，并向远离目标函数的黑色箭头是梯度方向 $f(x_k)$ ，与其相反的黑色箭头就是梯度的负方向。
以 $x_k$ 为圆心， $1$ 为半径作圆(因为 $P_k$ 是单位向量)，在蓝色虚线上方并且落在圆上的点(橙色点)与 $x_k$ 相连接构成的向量就是 $P_k$ 可能选择的向量。图中的红色弧线表示夹角。

在优化算法——无约束优化概述中提到线搜索方法方向中的与负梯度方向相关的方向就是与负梯度方向夹角在

\begin{aligned} (- \frac{π}{2}, \frac{π}{2}) \end{aligned}

$egin{aligned}left(-frac{pi}{2},frac{pi}{2} ight)end{aligned}$

(- \frac{π}{2}, \frac{π}{2})

之间的方向(与梯度方向的情况正好相反)。

继续观察上图，如果方向在蓝色虚线或者是蓝色虚线以下的范围内，那么更新后的梯度目标函数结果必然大于当前等高线的数值结果。
可以想象一下：如果更新的 $P_k$ 方向与切线方向非常接近(例如图中最右侧的橙黄色点),如果稍微控制不好步长从而使步长过大，那么最终同样导致更新后的目标函数结果大于之前的结果，从而导致本次迭代无效。从侧面也能看出合理步长的重要性。

同理，如果 $P_k$ 方向恰好与 $f(x_k)$ 之间的夹角为 $π$ (与 $f(x_k)$ 方向完全相反)，那么此时的 $cos θ = - 1$ ，对应更新后的 $f(x_{k+1})$ 相比 $f(x_k)$ 减小的程度是最强烈的，也是当前迭代步骤最优的优化方向：

\begin{aligned} f (x_{k + 1}) - f (x_{k}) & \approx α_{k} \cdot | | \nabla f (x_{k}) | | \cdot | | P_{k} | | \cdot \cos θ \\ = - α_{k} \cdot | | \nabla f (x_{k}) | | \cdot 1 \cdot (- 1) \\ = - α_{k} \cdot | | \nabla f (x_{k}) | | \end{aligned}

$egin{aligned} f(x_{k+1}) - f(x_k) & approx alpha_k cdot || abla f(x_k)|| cdot ||mathcal P_k|| cdot cos heta \ & = - alpha_k cdot || abla f(x_k)|| cdot 1 cdot (-1) \ & = -alpha_k cdot || abla f(x_k)|| end{aligned}$

f (x_{k + 1}) - f (x_{k}) \approx α_{k} \cdot ∣∣\nabla f (x_{k}) ∣∣ \cdot ∣∣ P_{k} ∣∣ \cdot cos θ = - α_{k} \cdot ∣∣\nabla f (x_{k}) ∣∣ \cdot 1 \cdot (- 1) = - α_{k} \cdot ∣∣\nabla f (x_{k}) ∣∣

实际上，梯度下降法 $(Gradient Descent,GD)$ ，它每一次迭代(更新步骤)中总会选择最优的优化方向(与梯度方向相反的方向)作为下降方向，因为在当前迭代步骤中，该方向目标函数下降的效果最明显。因此梯度下降法也被称作最速下降法。

相关参考：
【优化算法】线搜索方法-方向

机器学习笔记之优化算法(二)线搜索方法(方向角度)引言

机器学习笔记之优化算法——线搜索方法[方向角度]

引言

回顾：线搜索方法

从方向角度观察线搜索方法

场景构建

假设1：目标函数结果的单调性

假设2：屏蔽步长 $alpha_k$ 对线搜索方法过程的影响

假设3：限定向量 $P_k$ 的大小

下降方向的推导过程

下降方向的几何意义

评论记录：

机器学习笔记之优化算法——线搜索方法[方向角度]

引言

回顾：线搜索方法

从方向角度观察线搜索方法

场景构建

假设1：目标函数结果的单调性

假设2：屏蔽步长 α k alpha_k αk​对线搜索方法过程的影响

假设3：限定向量 P k mathcal P_k Pk​的大小

下降方向的推导过程

下降方向的几何意义

评论记录：

假设2：屏蔽步长 $alpha_k$ 对线搜索方法过程的影响

假设3：限定向量 $P_k$ 的大小