机器学习笔记之优化算法——收敛速度的简单认识

引言

引言

本节对收敛速度简单介绍。

收敛速度的判别标准

我们之前几节介绍了线搜索方法 $(Line Search Method)$ ，并从方向角度、步长角度描述了先搜索方法的迭代优化过程。关于针对目标函数 $f (X)$ 优化的终极目标： $mathop{min}limits_{mathcal X in mathbb R^n} f(mathcal X)$ ，我们希望通过一系列数值解 ${x_k}_{k=0}^{infty}$ ，使其对应的目标函数结果 ${f(x_k)}_{k=0}^{infty}$ 收敛到最优值 $f^*$ ：
也可以等价写作： ${x_k}_{k=0}^{infty} Rightarrow x^*;f(x^*) = f^*$ 。其中 $x^*$ 则表示迭代产生的最优数值解： $x^* = mathop{argmin}limits_{mathcal X in mathbb R^n} f(mathcal X)$
${f(x_k)}_{k=0}^{infty} Rightarrow f^*$

本节将介绍两种关于收敛速度的判别标准： $Q$ -收敛速度与 $R$ -收敛速度。

$Q$ -收敛速度

其中 $Q$ -收敛速度中的 $Q$ 是指： $Quotient$ ，也就是除法中的商。该方式主要围绕迭代过程中数值解 $x_k,x_{k+1}$ 与最优解 $x^*$ 之间差异性的商值对收敛速度进行描述：

由于 $x_k,x_{k+1},x^*$ 可能是 $R^n$ 的向量，因此关于差异性的描述使用范数进行表示。
而这个范数也可以理解为：数值解与最优解之间的距离，是一个正值。
$mathop{lim}limits_{k Rightarrow infty} frac{||x_{k+1} - x^*||}{||x_k - x^*||}$

在判断是否为 $Q$ -收敛时，我们事先假定：

$k$ 充分大——这意味着 $x_k,x_{k+1}$ 都经过充分迭代产生的数值解，因而它们均无限趋近于 $x^*$ 。也就是说：无论 $x_{k+1} - x^*||$ 还是 $x_{k} - x^*||$ ，它们都可视作无穷小量：
${\begin{cases} lim_{k \Rightarrow \infty} | | x_{k + 1} - x^{*} | | = 0 \\ lim_{k \Rightarrow \infty} | | x_{k} - x^{*} | | = 0 \end{cases}$
$x_k$ 与 $f(x_k)$ 同理——这个意思并不是说 $x_k$ 与 $f(x_k)$ 可以进行相互替换，而是说在 $Q$ -收敛中， $f(x_k)$ 与· $x_k$ 一样存在相同形式的定义：
这两个定义在 $Q$ -收敛中没有区别，针对具体情况都可以进行使用。
$mathop{lim}limits_{k Rightarrow infty} frac{|| f(x_{k+1}) - f^*||}{||f(x_k) - f^*||}$

我们根据收敛速度的强度由低到高介绍 $4$ 种 $Q$ -收敛：

$Q$ -次线性收敛 $(Q-SubLinear Convergence)$ ，其定义用数学符号表示为：
$mathop{lim}limits_{k Rightarrow infty} frac{||x_{k+1} - x^*||}{||x_k - x^*||} = 1$
$Q$ -线性收敛 $(Q-Linear Convergence)$ 。对应数学符号表示为：
$frac{||x_{k+1} - x^*||}{||x_k - x^*||} leq a in (0,1)$
我们发现，与 $Q$ -次线性收敛不同的是，它并没有加极限符号。并且：差异性的比值被 $(0, 1)$ 范围内的常数 $a$ 限制着。例如：目标函数值集合 ${f(x_k)}_{k=0}^{infty}$ 服从函数 $2^{-k}$ 。其定义域内对应的函数图像表示如下：

可以发现：随着 $k \Rightarrow \infty$ ，可以得到最优解 $f^* = 0$ ，而对应的
$\begin{aligned} \frac{| | f (x_{k + 1}) - f^{*} | |}{| | f (x_{k}) - f^{*} | |} \end{aligned}$
∣∣f(xk)−f∗∣∣∣∣f(xk+1)−f∗∣∣在图像中可表示为相邻红色直线之间的比值。这个比值的计算结果为：
$frac{||f(x_{k+1}) - f^*||}{||f(x_k) - f^*||} = frac{2^{-(k+1)} - 0}{2^{-k} - 0} = frac{1}{2}$
因此，由 $G (k)$ 表示的 ${f(x_k)}_{k=0}^{infty}$ 是 $\begin{aligned} a = \frac{1}{2} \end{aligned}$ 的 $Q$ -线性收敛。
此处所谓线性是指：将 ${f(x_k)}_{k=0}^{infty}$ 视作为误差序列。也就是说：随着迭代次数 $k$ 的增加，误差信息 $G (k)$ 越来越小，最终减少到 $0$ 。对误差取对数操作后，其结果 $lo g G (k)$ 与 $k$ 之间呈线性关系：
这里关于 $lo g$ 取底数为 $2$ 。
$log_2 2^{-k} =-k$
当 $a$ 取到极限 $1$ 时， $Q$ -线性收敛会退化至 $Q$ -次线性收敛；相反，当 $a$ 取到极限 $0$ 时， $Q$ -线性收敛会进化至 $Q$ -超线性收敛。反过来说：
- 为什么被称作 $Q$ -次线性收敛是因为：相比 $Q$ -线性收敛中相邻迭代产生的差异性比值能够明显地用 $a \in (0, 1)$ 描述出来；而 $Q$ -次线性收敛中相邻迭代产生的差异性几乎完全相同，它们之间的差距可以忽略不计。从而才有：
  很明显，相比 $Q$ -次线性收敛， $Q$ -线性收敛的差异性更明显，收敛的速度更快。
  $mathop{lim}limits_{k Rightarrow infty} frac{||x_{k+1} - x^*||}{||x_k - x^*||} = 1$
  例如： $\begin{aligned} G (k) = \frac{1}{k} \end{aligned}$ 就是一个明显的 $Q$ -次线性收敛。其对应函数图像表示如下：
  很明显，相比上述的 $G(k)=2^{-k}$ ，随着迭代次数 $k$ 的增加，相邻红色线比值的变化并不非常明显。
  
  其次通过计算比值也能观察到类似的效果：
  很明显，当充分迭代之后，此时 $k$ 已经充分大，而 $\begin{aligned} \frac{k}{k + 1} \end{aligned}$ 这样的收敛效果完全可以忽略不计。
  $mathop{lim}limits_{k Rightarrow infty}frac{||f(x_{k+1}) - f^*||}{||f(x_k) - f^*||} = mathop{lim}limits_{k Rightarrow infty}frac{frac{1}{k+1} - 0}{frac{1}{k} - 0} = mathop{lim}limits_{k Rightarrow infty}frac{k}{k+1} = 1$
与 $Q$ -次线性收敛相反， $Q$ -超线性收敛 $(Q-Superlinear Convergence)$ 的定义用数学符号表示为：
这意味着相邻迭代次数之间差异性极大，使得 $x_{k+1}$ 对应的差异性结果与 $x_k$ 的差异性结果相比小到可以忽略不计，这里不再过多赘述。
$mathop{lim}limits_{k Rightarrow infty} frac{||x_{k+1} - x^*||}{||x_k - x^*||} = 0$
$Q$ -二次收敛 $(Q-Quadratic Convergence)$ 的定义用数学符号表示为：
- 同理，如 $Q$ -三次收敛 $(Cubic Convergence)$ 等等，仅与分母中的指数项相关。
- 相比于线性收敛中 $a \in (0, 1)$ ，我们在 $Q$ -二次收敛中不会更多计较 $a$ 的范围，因为无穷小量的级别就可以说明其收敛速度。
  $frac{||x_{k+1} - x^*||}{||x_k - x^*||^2} leq a in (0,+infty)$
与 $Q$ -线性收敛的定义类似，也同样没有极限符号。由于 $x_k - x^*||$ 自身就是一个无穷小量，那么它的平方结果可理解为一个更高级别的无穷小量，反过来说明：如果 $x_{k+1}$ 差异性所描述的无穷小量与 $x_k$ 差异性的平方所描述的无穷小量是一个级别的话，那么它的收敛速度已经超越了线性范畴。

例如： $2^{-2^{k}}$ 就是明显的 $Q$ -二次收敛。其对应的函数图像表示如下：
很明显，相比上面的收敛，它的收敛速度更快了，这里不再过多赘述。

对应比值的计算结果是：

$\begin{aligned} \frac{G (k + 1) - 0}{[G (k)]^{2}} = \frac{2^{- 2^{k + 1}}}{[2^{- 2^{k}}]^{2}} = 1 \in (0, + \infty) \end{aligned}$
[G(k)]2G(k+1)−0=[2−2k]22−2k+1=1∈(0,+∞)

$R$ -收敛速度

其中 $R$ -收敛速度中的 $R$ 是指： $Root$ 。关于假设条件与 $Q$ -收敛速度相同，这里不再赘述：

$k$ 充分大；
$x_k$ 与 $f(x_k)$ 共用相同概念。

关于 $R$ -收敛速度定义的数学符号表示如下：
$||x_k - x^*|| leq t_k$
其中 $x_k - x^*||$ 依然是数值解与最优解之间的差异性信息(距离范数)；该结果被另外一个序列 ${t_k}_{k=0}^{infty}$ 限制住：

如果 $t_k$ 是 $Q$ -次线性/线性/超线性/二次收敛；
并且 $mathop{lim}limits_{k Rightarrow infty} t_k = 0$ ；
这说明 ${t_k}_{k=0}^{infty}$ 是一个 误差序列而不是数值解序列。上面的函数例子中，我们使用这些函数描述的是数值解序列 ${x_k}_{k=0}^{infty}$ 或者 ${f(x_k)}_{k=0}^{infty}$ ,但这里示例函数 $G (k)$ 最终都会收敛到 $0$ ，因而也可以将其视作误差序列。

则称 $x_k$ 是 $R$ -次线性/线性/超线性/二次收敛。
可以看出： $Q$ 与 $R$ 的区别在于：

关于差异性的描述： $\begin{aligned} Q \Rightarrow \frac{| | x_{k + 1} - x^{*} | |}{| | x_{k} - x^{*} | |^{p}} (p = 1, 2, 3, \dots) \end{aligned}$ 与 $||x_k - x^*||$
相比于 $Q$ 中使用具体值(0、1)或者范围 $(0, 1); (0, + \infty)$ ， $R$ 则使用误差序列 ${t_k}_{k=0}^{infty}$ ,并且每一个迭代步骤 $k = 0, 1, 2, \dots$ 均被对应 ${t_k}_{k=0}^{infty}$ 中的 $t_0,t_1,t_2,cdots$ 限制住。

之所以会定义 $R$ -收敛速度，原因在于：一些情况下， $Q$ -收敛速度不容易求解，如果找到一组合适的 ${t_k}_{k=0}^{infty}$ ，可以根据 $t_k$ 的收敛速度，从而对 $x_k$ 的收敛速度进行表达。例如：
$||f(x_k) - f^*|| leq mathcal G(k) = frac{1}{k}$
我们已经知道：满足 $G (k)$ 的误差序列是 $Q$ -次线性收敛，因而可以判断 ${f(x_k)}_{k=0}^{infty}$ 是 $R -$ 次线性收敛。

关于算法复杂度与收敛速度

在真实情况下，我们不能任由算法无限迭代下去，即 $k$ 不能无限大。因而我们会设置一些判断条件。例如：
这里 $ϵ$ 表示描述限制条件的超参数。达到该条件，即可停止算法。
$||f(x_k) - f^*|| leq epsilon$

如果依然以 $Q$ -次线性收敛 $\begin{aligned} \frac{1}{k} \end{aligned}$ 为例，需要满足：
$||f(x_k) - f^*|| leq mathcal G(k) =frac{1}{k} leq epsilon Rightarrow k geq frac{1}{epsilon}$
可以看出：当 $ϵ$ 越小时，迭代的次数 $k$ 越大。
如果以 $Q$ -线性收敛 $2^{-k}$ 为例，需要满足：
$2^{-k} leq epsilon Rightarrow k geq log_2 frac{1}{epsilon}$

可以观察到：在 $ϵ$ 很小的情况下，关于

\begin{aligned} \frac{1}{ϵ} \end{aligned}

$egin{aligned}frac{1}{epsilon}end{aligned}$

\frac{1}{ϵ}

其量级远高于

\begin{aligned} \log_{2} \frac{1}{ϵ} \end{aligned}

：
随着

\begin{aligned} \frac{1}{ϵ} \end{aligned}

的增加,

Q

-次线性收敛(蓝色直线)与

Q

-线性收敛(橙色曲线)对应的函数结果相比，其对应函数值的增速明显更高，而更高意味着更多的迭代步骤。

算法复杂度与收敛速度示例
因此，一般情况下，使用更高强度的收敛速度，那么他的迭代步骤就会减小，从而降低算法复杂度。

文章知识点与官方知识档案匹配，可进一步学习相关知识

算法技能树首页概览51117 人正在系统学习中

机器学习笔记之优化算法(九)收敛速度的简单认识引言

机器学习笔记之优化算法——收敛速度的简单认识

引言

收敛速度的判别标准

$Q$ -收敛速度

$R$ -收敛速度

关于算法复杂度与收敛速度

评论记录：

机器学习笔记之优化算法——收敛速度的简单认识

引言

收敛速度的判别标准

Q mathcal Q Q-收敛速度

R mathcal R R-收敛速度

关于算法复杂度与收敛速度

评论记录：

$Q$ -收敛速度

$R$ -收敛速度