机器学习笔记之高斯混合模型——EM算法求解高斯混合模型【E步操作】

引言

引言

上一节介绍了尝试使用极大似然估计求解高斯混合模型的模型参数，但无法求出解析解。本节将介绍使用EM算法求解高斯混合模型的模型参数。

回顾：高斯混合模型及模型参数

令 $X$ 表示观测数据(Observed Data)，共包含 $N$ 个样本点，并假设 任意样本之间独立同分布：
${x^{(1)},x^{(2)},cdots, x^{(N)}} \ x^{(i)} overset{ ext{i.i.d.}}{sim}x^{(j)} quad (x^{(i)},x^{(j)} in mathcal X;i eq j)$
任意一个样本点 $x^{(i)}$ 均对应一个隐变量 $z^{(i)}$ 。从样本数量角度观察，隐变量集合 $Z$ 表示如下：
${z^{(1)},z^{(2)},cdots,z^{(N)}}$
称 $(X, Z)$ 为完整数据(Complete Data)，样本数量角度表示如下：
${(x^{(1)},z^{(1)}),cdots,(x^{(N)},z^{(N)})}$
从变量分布的角度观察，隐变量 $Z$ 是基于 $K$ 个参数的离散分布，各参数及对应概率分布表示如下：

$Z$	$z_1$	$z_2$	$\dots$	$z_{mathcal K}$
$P (Z)$	$p_1$	$p_2$	$\dots$	$p_{mathcal K}$

并满足：
$sum_{k=1}^{mathcal K} p_k = 1$
任意 $z_j in mathcal Z$ 均唯一对应一个高斯分布。换句话说，给定隐变量标签 $z_j in mathcal Z$ 的条件下， $z_j$ 标签下的样本数据 $x$ 服从高斯分布。因而共包含 $K$ 个高斯分布：

$Z$	$z_1$	$z_2$	$\dots$	$z_{mathcal K}$
$P (X ∣ Z)$	$N(mu_1,Sigma_1)$	$N(mu_2,Sigma_2)$	$\dots$	$N(mu_{mathcal K},Sigma_{mathcal K})$

数学符号表达即：
$z_k) sim mathcal N(mathcal X mid mu_{k},Sigma_k) quad (k=1,2,cdots,mathcal K)$
因此，高斯混合模型的概率模型 $P (X)$ 表达如下：
$egin{aligned}P(mathcal X) & = sum_{mathcal Z} P(mathcal X mid mathcal Z = z_k)P(mathcal Z = z_k) \ & = sum_{k=1}^{mathcal K}mathcal N(mathcal X mid mu_k,Sigma_k)cdot p_k end{aligned}$
概率模型的模型参数 $θ$ 表示如下：
${p_1,cdots,p_{mathcal K},mu_1,cdots,mu_{mathcal K},Sigma_1,cdots,Sigma_{mathcal K}}$

回顾：狭义EM算法

EM算法是求解概率模型 $P (X ∣ θ)$ 模型参数的一种方法，它的底层是极大似然估计，它的迭代求解公式具体表示如下：
$egin{aligned} heta^{(t+1)} & = mathop{argmax}limits_{ heta} int_{mathcal Z} log P(mathcal X,mathcal Z mid heta) cdot P(mathcal Z mid mathcal X, heta^{(t)}) dmathcal Z \ & = mathop{argmax}limits_{ heta} mathbb E_{mathcal Z mid mathcal X, heta} left[log P(mathcal X,mathcal Z mid heta) ight] end{aligned}$
基于上述公式，可以将EM算法分成两个步骤：

E步(Expection-Step)：令 $E_{mathcal Z mid mathcal X, heta} left[log P(mathcal X,mathcal Z mid heta) ight]$ 表示为 关于 $heta^{(t)}$ 的函数。则有：
$heta^{(t)}) = int_{mathcal Z} log P(mathcal X,mathcal Z mid heta) cdot P(mathcal Z mid mathcal X, heta^{(t)}) dmathcal Z$
M步(Maximization-Step)：基于E步操作，选择合适的 $θ$ ，使得 $heta^{(t)})$ 最大。
$heta^{(t+1)} = mathop{argmax}limits_{ heta} mathcal L( heta, heta^{(t)})$

E步、M步交替进行，最终迭代收敛至最优解(至少局部最优)。

使用EM算法求解高斯混合模型参数

场景整理

EM算法中符号表示与高斯混合模型中的符号表示 对比如下：
等号左端是‘EM算法’的符号表示；等号右端是‘高斯混合模型’的符号表示。
$egin{aligned}P(mathcal X,mathcal Z mid heta) & = P(mathcal Z = z_j)cdot P(mathcal X mid mathcal Z = z_j) \ & = p_{mathcal Z} cdot mathcal N(mathcal X mid mu_{mathcal Z},Sigma_{mathcal Z}) \ & = prod_{i=1}^N p_{z^{(i)}} cdot mathcal N(x^{(i)} mid mu_{z^{(i)}},Sigma_{z^{(i)}})\ P(mathcal Z mid mathcal X, heta) & = frac{P(mathcal X,mathcal Z)}{P(mathcal X)} \ & = frac{prod_{i=1}^N p_{z^{(i)}} cdot mathcal N(x^{(i)} mid mu_{z^{(i)}},Sigma_{z^{(i)}})}{sum_{k=1}^{mathcal K} p_kcdot mathcal N(mathcal X mid mu_k,Sigma_k)} end{aligned}$

求解过程(E步过程)

已知 $heta^{(t)})$ 函数表示如下：
$heta^{(t)}) = int_{mathcal Z} log P(mathcal X,mathcal Z mid heta) cdot P(mathcal Z mid mathcal X, heta^{(t)}) dmathcal Z$
将 $P (X, Z ∣ θ), P (Z ∣ X, θ)$ 代入上式：
由于‘高斯混合模型’隐变量 $Z$ 是离散型参数，因而将 $\int$ 符号改为 $\sum$ 符号，并且各样本之间服从’独立同分布‘。
$sum_{mathcal Z} log prod_{i=1}^N P(x^{(i)},z^{(i)} mid heta) cdot prod_{i=1}^N P(z^{(i)} mid x^{(i)}, heta^{(t)})$

将 $prod_{i=1}^N P(x^{(i)},z^{(i)} mid heta)$ 进行变换，并将 $sum_{mathcal Z}$ 展开：
$sum_{z^{(1)},z^{(2)},cdots,z^{(N)}} sum_{i=1}^N log P(x^{(i)},z^{(i)} mid heta) cdot prod_{i=1}^N P(z^{(i)} mid x^{(i)}, heta^{(t)})$
关于 $sum_{z^{(1)},z^{(2)},cdots,z^{(N)}}$ 这个形式 需要解释一下，我们之前并没有讨论过 $z^{(i)}(i=1,2,cdots,N)$ 到底是什么，只是知道每个样本下 $x^{(i)}$ 均对应一个隐变量 $z^{(i)}$ 。

$z^{(i)}$ 不是一个具体数值，而是一个向量。它表示样本 $x^{(i)}$ “可能属于的高斯分布”所组成的向量。示例：
依然假设样本空间内一共包含 $K$ 个高斯分布，样本 $x^{(1)}$ 对应的隐变量 $z^{(1)}$ 表示如下：
$z^{(1)} = (z_1^{(1)},z_2^{(1)},cdots,z_{mathcal K}^{(1)})^{T}$
其中， $z_{k}^{(1)}(k=1,2,cdots,mathcal K)$ 表示 样本 $x^{(1)}$ 可能属于编号为 $k$ 的高斯分布。注意， $z_k^{(1)}$ 只表示高斯分布的编号(或者称为离散参数)，它不表示概率。 它是如何表示概率的？结果如下表：

$z^{(1)}$	$z_1^{(1)}$	$z_2^{(1)}$	$\dots$	$z_{mathcal K}^{(1)}$
$P(z^{(1)})$	$p_1^{(1)}$	$p_2^{(1)}$	$\dots$	$p_{mathcal K}^{(1)}$

$p_j^{(i)}$ 是样本点 $x^{(i)}$ 指向编号为 $z_j$ 的隐变量对应的高斯分布 $N(mu_j,Sigma_j)$ 的概率，而 $P(z^{(i)})$ 表示 $K$ 个概率结果组成的向量。用数学语言表达即：
$p_j^{(i)} = P(x^{(i)} o z_j) = P(x^{(i)} in mathcal N(mu_j,Sigma_j)) \ P(z^{(i)}) = (p_1^{(i)},p_2^{(i)},cdots,p_{mathcal K}^{(i)}) ^{T}$
同样存在这种现象的不仅仅是概率，还有均值、协方差：

$mu_{z^{(i)}}$ 表示样本点 $x^{(i)}$ 对应在 $K$ 个高斯分布上的期望结果组成的向量：
$mu_{z^{(i)}} = (mu_{1}^{(i)}，mu_2^{(i)}, cdots, mu_{mathcal K}^{(i)})^{T}$
$Sigma_{z^{(i)}}$ 表示样本点 $x^{(i)}$ 对应在 $K$ 个高斯分布上的协方差结果组成的向量：
$Sigma_{z^{(i)}} = (Sigma_{1}^{(i)}，Sigma_2^{(i)}, cdots, Sigma_{mathcal K}^{(i)})^{T}$

由于 $sum_{i=1}^N log P(x^{(i)},z^{(i)}mid heta)$ 中隐变量的形式是 $z^{(i)}(i=1,2,cdots,N)$ 而不是 $z_j(j=1,2,cdots,mathcal K)$ 因此对 $sum_{mathcal Z}$ 的展开不是 $sum_{z_1,z_2,cdots,z_{mathcal K}}$ 而是 $sum_{z^{(1)},z^{(2)},cdots,z^{(N)}}$ 。

继续将 $sum_{i=1}^N log P(x^{(i)},z^{(i)}mid heta)$ 展开，展开结果如下：
$egin{aligned} mathcal L( heta, heta^{(t)}) & = sum_{z^{(1)},z^{(2)},cdots,z^{(N)}} left[log P(x^{(1)},z^{(1)} mid heta) + P(x^{(2)},z^{(2)} mid heta) + cdots + P(x^{(N)},z^{(N)} mid heta) ight] cdot prod_{i=1}^N P(z^{(i)} mid x^{(i)}, heta^{(t)}) \ & = left[sum_{z^{(1)},z^{(2)},cdots,z^{(N)}} log P(x^{(1)},z^{(1)} mid heta) prod_{i=1}^N P(z^{(i)} mid x^{(i)}, heta^{(t)}) ight] + cdots + left[sum_{z^{(1)},z^{(2)},cdots,z^{(N)}} log P(x^{(N)},z^{(N)} mid heta) prod_{i=1}^N P(z^{(i)} mid x^{(i)}, heta^{(t)}) ight] end{aligned}$
基于上述结果，仅观察第一项：
$sum_{z^{(1)},z^{(2)},cdots,z^{(N)}} log P(x^{(1)},z^{(1)} mid heta) prod_{i=1}^N P(z^{(i)} mid x^{(i)}, heta^{(t)})$
观察 $prod_{i=1}^N P(z^{(i)} mid x^{(i)}, heta^{(t)})$ ，发现只有第一项 $P(z^{(1)} mid x^{(1)}, heta^{(t)})$ 和 $z^{(1)}$ 相关；因此，将上式表示为如下形式：
$egin{aligned} & sum_{z^{(1)},z^{(2)},cdots,z^{(N)}} log P(x^{(1)},z^{(1)} mid heta) cdot P(z^{(1)} mid x^{(1)}, heta^{(t)}) prod_{i=2}^N P(z^{(i)} mid x^{(i)}, heta^{(t)}) \ & = sum_{z^{(1)}} left[ log P(x^{(1)},z^{(1)} mid heta) cdot P(z^{(1)} mid x^{(1)}, heta^{(t)}) ight] cdot sum_{z^{(2)},cdots,z^{(N)}} left[prod_{i=2}^N P(z^{(i)} mid x^{(i)}, heta^{(t)}) ight] end{aligned}$
观察 $sum_{z^{(2)},cdots,z^{(N)}} left[prod_{i=2}^N P(z^{(i)} mid x^{(i)}, heta^{(t)}) ight]$ ，它可以展开成如下形式：
$egin{aligned} sum_{z^{(2)},cdots,z^{(N)}} left[prod_{i=2}^N P(z^{(i)} mid x^{(i)}, heta^{(t)}) ight] & = sum_{z^{(2),cdots,z^{(N)}}} left[P(z^{(2)} mid x^{(2)}, heta^{(t)}) imes cdots imes P(z^{(N)} mid x^{(N)}, heta^{(t)}) ight] \ & = sum_{z^{(2)}} P(z^{(2)} mid x^{(2)}, heta^{(t)}) imes cdots imes sum_{z^{(N)}}P(z^{(N)} mid x^{(N)}, heta^{(t)}) end{aligned}$
上述结果的任意一项 $sum_{z^{(j)}} P(z^{(j)} mid x^{(j)}, heta^{(t)}) (j=2,cdots,N)$ 都是 基于离散型变量的概率密度积分，因此则有：
$sum_{z^{(2)}} P(z^{(2)} mid x^{(2)}, heta^{(t)}) = cdots =sum_{z^{(N)}} P(z^{(N)} mid x^{(N)}, heta^{(t)}) = 1 \ sum_{z^{(2)},cdots,z^{(N)}} left[prod_{i=2}^N P(z^{(i)} mid x^{(i)}, heta^{(t)}) ight] = 1 imes cdots imes 1 = 1$
因此，被观察的第一项 结果如下：
$egin{aligned} & sum_{z^{(1)},z^{(2)},cdots,z^{(N)}} log P(x^{(1)},z^{(1)} mid heta) prod_{i=1}^N P(z^{(i)} mid x^{(i)}, heta^{(t)}) \ & = sum_{z^{(1)}} left[ log P(x^{(1)},z^{(1)} mid heta) cdot P(z^{(1)} mid x^{(1)}, heta^{(t)}) ight] cdot 1 \ & = sum_{z^{(1)}} left[ log P(x^{(1)},z^{(1)} mid heta) cdot P(z^{(1)} mid x^{(1)}, heta^{(t)}) ight] end{aligned}$
基于上一步骤， $heta^{(t)})$ 可表示为如下形式：
$egin{aligned} mathcal L( heta, heta^{(t)}) & = sum_{z^{(1)}} left[log P(x^{(1)},z^{(1)} mid heta) cdot P(z^{(1)} mid x^{(1)}, heta^{(t)}) ight] + cdots + sum_{z^{(N)}} left[log P(x^{(N)},z^{(N)} mid heta) cdot P(z^{(N)} mid x^{(N)}, heta^{(t)}) ight] \ & = sum_{i=1}^N sum_{z^{(i)}}left[log P(x^{(i)},z^{(i)} mid heta) cdot P(z^{(i)} mid x^{(i)}, heta^{(t)}) ight] end{aligned}$
将场景整理中的对应结果代入，有：
关于 $P(z^{(i)}),mu_{z^{(i)}},Sigma_{z^{(i)}}$ 详见上面黄色字解释。
$heta^{(t)}) = sum_{i=1}^N sum_{z^{(i)}} log P(z^{(i)}) cdot mathcal N(x^{(i)} mid mu_{z^{(i)}},Sigma_{z^{(i)}}) cdot frac{P(z^{(i)}) cdot mathcal N(x^{(i)} mid mu_{z^{(i)}},Sigma_{z^{(i)}})}{sum_{k=1}^{mathcal K} p_k cdot mathcal N(x^{(i)} mid mu_k,Sigma_k)}$

至此，使用EM算法对高斯混合模型求解过程的E步求解完毕，下一节将介绍M步的求解过程。

p.s.这节视频中符号表示的信息确实很复杂，要多想~

相关参考：
机器学习-高斯混合模型(3) -EM求解-E-step

文章知识点与官方知识档案匹配，可进一步学习相关知识

算法技能树首页概览51117 人正在系统学习中

机器学习笔记之高斯混合模型(三)EM算法求解高斯混合模型(E步操作)引言