机器学习笔记之高斯混合模型——尝试使用极大似然估计求解模型参数

引言

引言

上一节介绍了高斯混合模型(Gaussian Mixture Model,GMM)，本节将对高斯混合模型的模型参数进行求解。

回顾：高斯混合模型

从概率生成模型的角度观察，概率模型 $P (X)$ 的生成过程表示如下：

引入一个隐变量 $Z$ ， $Z$ 是一个基于参数的离散分布，假设该离散分布的数量为 $K$ 个，该离散分布的 标签及对应概率分布 $P (Z)$ 表示如下：

$Z$	$z_1$	$z_2$	$\dots$	$z_{mathcal K}$
$P (Z)$	$p_1$	$p_2$	$\dots$	$p_{mathcal K}$

并满足：
$sum_{k=1}^{mathcal K} p_{k} = 1$

任意 $z_j in mathcal Z$ 均唯一对应一个高斯分布 $N(mu_j,Sigma_j)$ ，因而共包含 $K$ 个高斯分布：

$Z$	$z_1$	$z_2$	$\dots$	$z_{mathcal K}$
$z_k)$	$N(mu_1,Sigma_1)$	$N(mu_2,Sigma_2)$	$\dots$	$N(mu_{mathcal K},Sigma_{mathcal K})$

数学符号表达即：
$z_k) sim mathcal N(mu_k,Sigma_k) quad (k=1,2,cdots,mathcal K ; x in mathcal X)$

则任意样本 $x \in X$ 的生成过程为：
$mu_k,Sigma_k)$ 表示在高斯分布 $N(mu_k,Sigma_k)$ 中随机生成一个样本点 $x$ ;
$sum_{mathcal Z}P(x mid mathcal Z)P(mathcal Z) = sum_{k=1}^{mathcal K}mathcal N(x mid mu_k,Sigma_k)cdot p_k$
从而整个样本集合 $X$ 的生成过程(即概率模型)：

$\begin{aligned} P (X) & = \sum_{Z} P (X ∣ Z) P (Z) \\ = \sum_{k = 1}^{K} P (X ∣ Z = z_{k}) P (Z = z_{k}) \\ = \sum_{k = 1}^{K} N (X ∣ μ_{k}, Σ_{k}) \cdot p_{k} (\sum_{k = 1}^{K} p_{k} = 1) \end{aligned}$ $egin{aligned} P(mathcal X) & = sum_{mathcal Z} P(mathcal X mid mathcal Z)P(mathcal Z) \ & = sum_{k=1}^{mathcal K} P(mathcal X mid mathcal Z=z_k)P(mathcal Z = z_k)\ & = sum_{k=1}^{mathcal K}mathcal N(mathcal X mid mu_k,Sigma_k)cdot p_k quad left(sum_{k=1}^{mathcal K}p_k = 1 ight) end{aligned}$ $P (X) = Z \sum P (X ∣ Z) P (Z) = k = 1 \sum K P (X ∣ Z = z_{k}) P (Z = z_{k}) = k = 1 \sum K N (X ∣ μ_{k}, Σ_{k}) \cdot p_{k} (k = 1 \sum K p_{k} = 1)$
其中 $mu_k,Sigma_k)$ 表示从高斯分布 $N(mu_k,Sigma_k)$ 中生成的样本 $X$ 。

模型求解：极大似然估计

场景描述

不同于高斯判别分析(Gaussain Discriminant Analysis,GDA)这样的监督学习的分类模型，高斯混合模型所处理的样本不包含标签信息。
因此，从数据集合的角度观察，它只包含样本信息。假设数据集合内共包含 $N$ 个样本，并假设数据集合中任意两个样本之间均属于 独立同分布(Independent and Identically Distributed,i.i.d.)关系。
${x^{(1)},x^{(2)},cdots,x^{(N)}} \ x^{(i)} overset{ ext{i.i.d.}}{sim} x^{(j)} quad (x^{(i)},x^{(j)} in mathcal X)$
基于样本集合的生成过程，每一个样本 $x^{(i)}$ 均对应一个隐变量 $z^{(i)}$ 。因而，从隐变量数量角度出发，隐变量 $Z$ 表达如下：
${z^{(1)},z^{(2)},cdots,z^{(N)}}$
从隐变量的 维度角度出发，任意一个隐变量 $z^{(i)}(i=1,2,cdots,N)$ 都存在 $K$ 种选择。即：
$z^{(i)} in {z_1,z_2,cdots,z_{mathcal K}} quad (i=1,2,cdots,N)$
称 $(X, Z)$ 为完整数据(Complete Data)。

模型参数整理

高斯混合模型求解本质上依然是求解概率模型 $P (X ∣ θ)$ 的模型参数 $θ$ 。首先想到的方法自然是极大似然估计(Maximum Likelihood Estimate，MLE)。

首先观察模型参数 $θ$ 是什么？
从样本的生成过程来看，样本的生成一共经过两次随机：

从隐变量 $Z$ 中随机选择一个 离散分布标签；
在离散分布标签确定的条件下，从离散分布标签对应的高斯分布 随机生成一个样本；

上述过程中，共存在两类参数：

选择离散分布标签的概率：
$p_1,p_2,cdots,p_{mathcal K} quad (sum_{k=1}^{mathcal K} p_k = 1)$
各标签对应高斯分布的模型参数：
$(mu_1,Sigma_1),(mu_2,Sigma_2),cdots,(mu_{mathcal K},Sigma_{mathcal K})$

因此，模型参数 $θ$ 可表示为一个参数集合：
${p_1,p_2,cdots,p_{mathcal K},mu_1,mu_2,cdots,mu_{mathcal K},Sigma_1,Sigma_2,cdots,Sigma_{mathcal K}}$

求解过程

极大似然估计表示如下：
基于样本间‘独立同分布’，可进行如下展开:

\begin{aligned} {\hat{θ}}_{M L E} & = \underset{θ}{\arg max} \log P (X ∣ θ) \\ = \underset{θ}{\arg max} \log [\prod_{i = 1}^{N} P (x^{(i)} ∣ θ)] \\ = \underset{θ}{\arg max} \sum_{i = 1}^{N} \log P (x^{(i)} ∣ θ) \end{aligned}

$egin{aligned} hat heta_{MLE} & = mathop{argmax}limits_{ heta} log P(mathcal X mid heta) \ & = mathop{argmax}limits_{ heta} log left[prod_{i=1}^{N} P(x^{(i)} mid heta) ight]\ & = mathop{argmax}limits_{ heta} sum_{i=1}^N log P(x^{(i)} mid heta) end{aligned}$

\hat{θ}_{M L E} = θ ar g max lo g P (X ∣ θ) = θ ar g max lo g [i = 1 \prod N P (x^{(i)} ∣ θ)] = θ ar g max i = 1 \sum N lo g P (x^{(i)} ∣ θ)

将 $P(x^{(i)})$ 看作样本 $x^{(i)}$ 在高斯混合模型中的生成过程，因此上式可转化为：
$heta_{MLE} = mathop{argmax}limits_{ heta} sum_{i=1}^N log left[sum_{k=1}^{mathcal K} mathcal N(x^{(i)}mid mu_k,Sigma_k) cdot p_k ight]$

这种 $lo g$ 中包含连加号 的形式是无法化简的，实际上，如果继续对 $θ$ 求解，会发现参数 $θ$ 无法求出解析解。
我们对参数集合 $θ$ 中的第一个元素： $p_1$ 求解析解进行示例。

设似然函数为 $L (θ)$ ， $L (θ)$ 表示如下：
$sum_{i=1}^N log left[sum_{k=1}^{mathcal K} mathcal N(x^{(i)}mid mu_k,Sigma_k) cdot p_k ight] quad ( heta = {p_1,p_2,cdots,p_{mathcal K},mu_1,mu_2,cdots,mu_{mathcal K},Sigma_1,Sigma_2,cdots,Sigma_{mathcal K}})$
将上述公式展开，结果如下：
$L(p_1,cdots,p_{mathcal K},mu_1,cdots,mu_{mathcal K},Sigma_1,cdots,Sigma_{mathcal K}) = sum_{i=1}^{N} log left[mathcal N(x^{(i)} mid mu_1,Sigma_1) cdot p_1 + cdots + mathcal N(x^{(i)} mid mu_{mathcal K},Sigma_{mathcal K}) cdot p_{mathcal K} ight] \ = left{log left[mathcal N(x^{(1)} mid mu_1,Sigma_1) cdot p_1 + cdots + mathcal N(x^{(1)} mid mu_{mathcal K},Sigma_{mathcal K}) cdot p_{mathcal K} ight] ight} + cdots + left{log left[mathcal N(x^{(N)} mid mu_1,Sigma_1) cdot p_1 + cdots + mathcal N(x^{(N)} mid mu_{mathcal K},Sigma_{mathcal K}) cdot p_{mathcal K} ight] ight}$
上述公式中共包含 $N$ 项连加，并且每一项均包含 $p_1$ 。令 $L (θ)$ 对 $p_1$ 求偏导。因而 $p_2,cdots,p_{mathcal K},mu_1,cdots,mu_{mathcal K},Sigma_1,cdots,Sigma_{mathcal K}$ 均视作常数。为简化步骤，以第一项为例：
$\begin{aligned} \frac{\partial}{\partial p_{1}} \log {[N (x^{(1)} ∣ μ_{1}, Σ_{1}) \cdot p_{1} + \dots + N (x^{(1)} ∣ μ_{K}, Σ_{K}) \cdot p_{K}]} \\ = \frac{1}{N (x^{(1)} ∣ μ_{1}, Σ_{1}) \cdot p_{1} + \dots + N (x^{(1)} ∣ μ_{K}, Σ_{K}) \cdot p_{K}} \cdot \frac{\partial}{\partial p_{1}} [N (x^{(1)} ∣ μ_{1}, Σ_{1}) \cdot p_{1} + \dots + N (x^{(1)} ∣ μ_{K}, Σ_{K}) \cdot p_{K}] \end{aligned}$
观察方括号中的项，只有第一项包含 $p_1$ ，其余项均不含 $p_1$ 。因此：
$\begin{aligned} \frac{\partial}{\partial p_{1}} [N (x^{(1)} ∣ μ_{1}, Σ_{1}) \cdot p_{1} + \dots + N (x^{(1)} ∣ μ_{K}, Σ_{K}) \cdot p_{K}] \\ = \frac{\partial}{\partial p_{1}} [N (x^{(1)} ∣ μ_{1}, Σ_{1}) \cdot p_{1}] \\ = N (x^{(1)} ∣ μ_{1}, Σ_{1}) \end{aligned}$
因此， $L (θ)$ 第一项对 $p_1$ 的偏导结果为：
$N(x^{(1)} mid mu_1,Sigma_1)}{mathcal N(x^{(1)} mid mu_1,Sigma_1) cdot p_1 + cdots + mathcal N(x^{(1)} mid mu_{mathcal K},Sigma_{mathcal K}) cdot p_{mathcal K}}$
同理， $L (θ)$ 全部 $N$ 项对 $p_1$ 的求导结果为：
$p_1} = sum_{i=1}^N frac{mathcal N(x^{(i)} mid mu_k,Sigma_k)}{sum_{k=1}^{mathcal K} mathcal N(x^{(i)} mid mu_k,Sigma_k)cdot p_k}$
令 $p_1} riangleq 0$ ，则有：
$N(x^{(1)} mid mu_1,Sigma_1) = mathcal N(x^{(2)} mid mu_1,Sigma_1) = cdots = mathcal N(x^{(N)} mid mu_1,Sigma_1) = 0$
因而没有求得 $p_1$ 的解析解。
同理，其他模型参数同样无法求出解析解。

使用极大似然估计求解高斯混合模型的参数 $θ$ 宣告失败。

下一解将介绍使用EM算法求解高斯混合模型的模型参数。

相关参考：
机器学习-高斯混合模型(2) -极大似然

机器学习笔记之高斯混合模型(二)模型求解——尝试使用极大似然估计求解模型参数引言