机器学习笔记之生成模型综述——监督学习与无监督学习

引言

引言

上一节介绍了生成模型的判别方式，本节将从机器学习需要解决的任务——监督学习、无监督学习的角度，对现阶段经典模型进行总结。

回顾：生成模型介绍

判别方式：生成模型 $\text{VS}$ 判别模型

生成模型( $\text{Generative Model}$ )的核心判别方式是：建模所关注的对象是否在样本分布自身。例如逻辑回归与朴素贝叶斯分类器。虽然这两个算法均处理基于监督学习的分类任务，并且均是软分类算法，但关注点截然不同：

逻辑回归( $\text{Logistic Regression}$ )的底层逻辑是最大熵原理，通过 $\text{Sigmoid},\text{Softmax}$ 函数直接对后验概率 $\mathcal P(\mathcal Y \mid \mathcal X)$ 进行描述：
以二分类为例，此时 $\mathcal Y$ 服从伯努利分布。
$\begin{cases} \text{Sigmoid}(\mathcal W^T\mathcal X + b) \quad \mathcal Y = 1\\ 1 - \text{Sigmoid}(\mathcal W^T\mathcal X + b) \quad \mathcal Y = 0 \end{cases}$
很明显，这里我们仅关注 $\text{Sigmoid}$ 函数结果。而 $\mathcal X$ 的特征信息仅作为与模型参数 $\mathcal W$ 做内积的工具而已，并不是我们关注的对象；
朴素贝叶斯分类器( $\text{Naive Bayes Classifier}$ )针对后验概率 $\mathcal P(\mathcal Y \mid \mathcal X)$ ，通过贝叶斯定理将其转化为 $\mathcal P(\mathcal X \mid \mathcal Y) \cdot \mathcal P(\mathcal Y)$ 之间的大小关系：
- 关于分母 $\mathcal P(\mathcal X)$ 的完整形式是 $\int_{\mathcal Y}\mathcal P(\mathcal X \mid \mathcal Y) \cdot \mathcal P(\mathcal Y) d\mathcal Y$ ,该项自身与 $\mathcal Y$ 无关，可视作常数。
- 这里依然以二分类为例, $\mathcal Y$ 同样服从伯努利分布。
  $\begin{aligned} \mathcal P(\mathcal Y \mid \mathcal X) = \frac{\mathcal P(\mathcal X,\mathcal Y)}{\mathcal P(\mathcal X)} \propto \mathcal P(\mathcal X,\mathcal Y) = \mathcal P(\mathcal X \mid \mathcal Y) \cdot \mathcal P(\mathcal Y) \\ \mathcal P(\mathcal X \mid \mathcal Y = 0) \cdot \mathcal P(\mathcal Y = 0) \overset{\text{?}}{\Leftrightarrow} \mathcal P(\mathcal X \mid \mathcal Y = 1) \cdot \mathcal P(\mathcal Y = 1) \end{aligned}$
在这里，我们关注的对象是联合概率分布 $\mathcal P(\mathcal X,\mathcal Y)$ 。并且针对 $\mathcal P(\mathcal X,\mathcal Y)$ 建模的过程中，设计了朴素贝叶斯假设：
$\begin{cases} x_i \perp x_j \mid \mathcal Y \quad (i\neq j;x_i,x_j \in \mathcal X;\mathcal X \in \mathbb R^p) \\ \mathcal P(\mathcal X \mid \mathcal Y) = \mathcal P(x_1,\cdots,x_p \mid \mathcal Y) = \prod_{i=1}^p \mathcal P(x_i \mid \mathcal Y) \end{cases}$

生成模型的建模手段

如果针对监督学习，自带标签信息 $\mathcal Y$ ，例如朴素贝叶斯分类器，通常针对联合概率分布 $\mathcal P(\mathcal X,\mathcal Y)$ 进行建模；

如果是无监督学习，此时只有样本特征 $\mathcal X$ ，主要分为两种情况：

如自回归模型( $\text{Autoregressive Model,AR}$ )，它直接对 $\mathcal P(\mathcal X)$ 自身进行建模；
隐变量模型( $\text{Latent Variable Model,LVM}$ )，通过假设隐变量 $\mathcal Z$ ，对联合概率分布 $\mathcal P(\mathcal X,\mathcal Z)$ 进行建模。

监督学习与无监督学习

从机器学习任务的角度观察：

分类( $\text{Classification}$ )、回归( $\text{Regression}$ ) 等明显属于监督学习任务；
而像降维( $\text{Dimensionality Reduction}$ )、聚类( $\text{Cluster}$ )、数据生成( $\text{Data Generation}$ ) 等属于无监督学习任务。

无论是监督学习还是无监督学习，都可以将其划分为概率模型与非概率模型。
这里的概率模型/非概率模型是指：在建模的过程中，其关于任务的返回结果是否考虑了概率分布。换句话说，概率是否直接参与到相关任务中去。

监督学习模型

基于监督学习的非概率模型

监督学习中的非概率模型，大方向指的是判别模型。在分类任务中，硬分类模型都是非概率模型。

感知机算法( $\text{Perceptron Linear Alpgorithm,PLA}$ ) ：硬分类任务的对应模型均表示特征空间的超平面。区别在于样本划分的策略(模型表示后略)：
其中 $\text{Sign}$ 函数表示指示函数，在硬分类任务中，其大多指的是分段函数；而在软分类任务中，它可以是如 $\text{Sigmoid}$ 函数的连续函数。
$\mathcal Y = \text{Sign}(\mathcal W^T\mathcal X + b)$
感知机算法的策略是错误驱动：
$\begin{cases} \mathcal L(\mathcal W,b) = \sum_{(x^{(i)},y^{(i)} \in \mathcal D)} -y^{(i)}\left(\mathcal W^Tx^{(i)} + b \right) \\ \mathop{\arg\min}\limits_{\mathcal W,b} \mathcal L(\mathcal W,b) \end{cases}$
硬间隔-支持向量机( $\text{Support Vector Machine,SVM}$ )，区别其他的硬分类模型，它是一个带约束的优化问题：
$\begin{cases} \mathop{\min}\limits_{\mathcal W,b} \frac{1}{2}\mathcal W^T\mathcal W \\ s.t. y^{(i)} \left(\mathcal W^Tx^{(i)} + b\right) \geq 1 \quad (x^{(i)},y^{(i)}) \in \mathcal D \end{cases}$
线性判别分析( $\text{Linear Discriminant Analysis,LDA}$ )：以二分类为例，通过描述被超平面划分样本点的类内、类间关系，来确定模型参数信息。其策略表示如下：
$\begin{aligned} \mathcal J(\mathcal W) & = \frac{(\bar{\mathcal Z_1} - \bar{\mathcal Z_2)^2}}{\mathcal S_1 + \mathcal S_2} \\ & = \frac{\mathcal W^T(\bar{\mathcal X_{\mathcal C_1}} - \bar{\mathcal X_{\mathcal C_2}})(\bar{\mathcal X_{\mathcal C_1}} - \bar{\mathcal X_{\mathcal C_2}})^T \mathcal W}{\mathcal W^T(\mathcal S_{\mathcal C_1} + \mathcal S_{\mathcal C_2}) \mathcal W} \\ & \begin{cases} \mathcal S_{\mathcal C_1} = \frac{1}{N_1} \sum_{i=1}^{N_1} (x^{(i)} - \bar{\mathcal X_{\mathcal C_1}})(x^{(i)} - \bar{\mathcal X_{\mathcal C_1}})^T \\ \bar {\mathcal X_{\mathcal C_1}} = \frac{1}{N_1} \sum_{i=1}^{N_1} x^{(i)} \end{cases} \end{aligned}$
多层感知机/前馈神经网络( $\text{Feed-Forword Neural Network}$ )：其核心是通用逼近定理。
- 关于神经网络处理硬分类问题，例如亦或问题，可以将其视作非概率判别模型；
  基于亦或问题的前馈神经网络结构表示如下。
- 如果是软分类问题，如在网络输出层加上 $\text{Sigmoid,Softmax}$ 函数作为输出，它此时被视作概率判别模型。
  $\text{Sigmoid,Softmax}$ 函数将输出结果映射成了概率分布形式，并且是以 $\mathcal X$ 作为输入层，关于 $\mathcal Y$ 的后验概率 $\mathcal P(\mathcal Y \mid \mathcal X)$ .
- 如果是回归任务，并不称其为判别模型，能够确定的是，它是一个非概率模型。
除了基于直线/超平面形状的硬分类算法，还如其他算法如决策树( $\text{Decision Tree}$ )等其他树模型也属于监督学习中的非概率模型。

基于监督学习的概率模型

监督学习中的概率模型可以继续向下划分，可划分为概率判别模型( $\text{Discriminative Model}$ )和概率生成模型( $\text{Generative Model}$ )两种：
‘概率生成模型’在末尾统一介绍。

其中概率判别模型的核心思想是：直接对条件概率 $\mathcal P(\mathcal Y \mid \mathcal X)$ 进行建模 。经典的概率判别模型有：
- 逻辑回归( $\text{Logistic Regression,LR}$ )：它的模型结构与其他分类任务的非概率模型相同，均是特征空间的直线/超平面：
  这里的 $\text{Sign}$ 函数指的是 $\text{Sigmoid}$ 函数自身。
  $\mathcal Y = \text{Sigmoid}(\mathcal W^T\mathcal X + b)$
  假设标签信息 $\mathcal Y$ 服从伯努利分布，逻辑回归使用 $\text{Sigmoid}$ 函数直接对 $\mathcal P(\mathcal Y \mid \mathcal X)$ 进行表达：
  其中 $\mathcal W,b$ 分别表示权重参数与偏置信息。
  $\begin{cases} \text{Sigmoid}(\mathcal W^T\mathcal X + b) \quad \mathcal Y = 1 \\ 1 - \text{Sigmoid}(\mathcal W^T\mathcal X + b) \quad \mathcal Y = 0 \end{cases}$
- 最大熵马尔可夫模型( $\text{Maximum Entropy Markov Model,MEMM}$ )：该模型的概率图结构表示如下：
  
  这种概率图结构打破了观测独立性假设的约束。并且它直接对隐变量 $\mathcal I$ 的后验概率进行建模：
  $\begin{aligned} \mathcal P(\mathcal I \mid \mathcal O;\lambda) & = \mathcal P(i_1,\cdots,i_{T} \mid o_1,\cdots,o_{T};\lambda) \\ & = \mathcal P(i_1 \mid o_1;\lambda) \cdot \prod_{t=2}^{T} \mathcal P(i_t \mid i_{t-1},o_t;\lambda) \end{aligned}$
- 条件随机场( $\text{Condition Random Field,CRF}$ ) ：该模型的概率图结构表示如下：
  
  在给定观测变量 $\mathcal O$ 的条件下，直接对 $\mathcal P(\mathcal I \mid \mathcal O)$ 进行建模：
  关于这种链式的无向图结构，它的极大团内仅包含相邻的两个随机变量结点与观测变量结点，这里将极大团数量 $\mathcal K$ 替换为序列长度 $T$ ;并且 $-\mathbb E_{k}(i_{\mathcal C_k})$ 表示能量函数，恒正; $\mathcal Z$ 表示配分函数。
  $\begin{aligned} \mathcal P(\mathcal I \mid \mathcal O) & = \frac{1}{\mathcal Z} \exp \sum_{k=1}^{\mathcal K} - \mathbb E_{k}(i_{\mathcal C_k}) \\ & = \frac{1}{\mathcal Z} \exp \sum_{t=1}^{T} f_t(\underbrace{i_t,i_{t+1},\mathcal O}_{极大团t内部结点}) \end{aligned}$
从上述介绍的几种模型也能观察到：并不能将所有的隐变量模型武断地看作生成模型，对于判别模型与生成模型的界限存在新的认识。

无监督学习

基于无监督学习的概率模型

由于无监督学习中没有标签信息，仅包含样本特征，因此无法通过标签信息进行判别。因而基于无监督的概率模型只有概率生成模型。
这里所说的概率分布只会是样本 $\mathcal X$ 的概率分布，在下面统一介绍。

基于无监督学习的非概率模型

关于无监督学习的非概率模型主要针对于特定任务。如：

降维-主成分分析( $\text{Principal Component Analysis,PCA}$ )：在执行去中心化操作后，找到主成分 $\vec u$ ，使 $\vec u$ 满足如下条件：
$\begin{cases} \hat u = \mathop{\arg\max}\limits_{\vec u} \mathcal J \quad \begin{cases} \mathcal J = \vec u^T \cdot \left[\frac{1}{N} \sum_{i=1}^N(x^{(i)} - \bar {\mathcal X})(x^{(i)} - \bar {\mathcal X})^T \right] \cdot \vec u \\ \bar {\mathcal X} = \frac{1}{N} \sum_{i=1}^N x^{(i)} \end{cases}$
其他的非概率模型如用于聚类任务的 $\text{K-means}$ ，以及自编码器( $\text{Autoencoder}$ )等等。

生成模型介绍

关于生成模型，将其从监督任务、非监督任务进行划分，意义不大。因而统一进行描述。首先需要排除一些错误认知：

概率图模型，特别是隐变量模型，并不全是生成模型。
如上面介绍的最大熵马尔可夫模型、条件随机场，它们是判别模型。只能说概率图模型中的大部分模型是生成模型。
相反，生成模型也并不全是概率图模型，例如神经网络。
- 在处理回归任务中，前馈神经网络结构可以视作非概率模型。如线性回归( $\text{Linear Regression}$ )；
- 在处理硬分类任务中，如前馈神经网络处理亦或问题，此时的前馈神经网络结构可以视作非概率的判别模型；
- 在处理软分类任务，如逻辑回归，此时的前馈神经网络结构可以视作概率判别模型；
- 在无监督学习任务中，针对非概率模型有自编码器( $\text{Auto-Encoder}$ )；
- 基于神经网络的分布式表示思想，通过神经网络实现特征提取，此时的神经网络可以被划分至概率生成模型。

也就是说，生成模型横跨了概率图模型以及深度学习，特别是将神经网络与概率图模型混合的产物——深度生成模型( $\text{Deep Generative Model}$ )

在介绍的生成模型中，假设最简单的生成模型——朴素贝叶斯分类器( $\text{Naive Bayes Classifier}$ )，它的核心是朴素贝叶斯假设：
$\begin{cases} i,j \in \{1,2,\cdots,p\} / \mathcal X \in \mathbb R^p \\ i \neq j \\ l \in \{1,2,\cdots,k\} \end{cases}$
主要应用在监督学习的分类任务，对应的概率图结构表示如下：
很明显，它并不是混合模型。 $x_1,\cdots,x_p$ 是随机变量，表示样本自身的各维度特征; $\mathcal Y$ 表示样本对应的标签信息。
混合模型系列，仅通过样本自身特征信息无法准确描述概率分布，需要引入隐变量 $\mathcal Z$ 进行建模。如高斯混合模型( $\text{Gaussian Mixture Model,GMM}$ )，其中 $\mathcal Z$ 被假设为一维、离散型随机变量，并且 $\mathcal X \mid \mathcal Z$ 服从高斯分布：
根据实际情况，也可以将其设置为其他分布，构建不同的混合模型。
$\mathcal X \mid \mathcal Z \sim \mathcal N(\mu_{k},\Sigma_{k})$
对应的建模过程表示为：
关于包含隐变量生成模型的建模过程主要是对联合概率分布 $\mathcal P(\mathcal X,\mathcal Z)$ 进行建模。
$\begin{aligned} \mathcal P(\mathcal X) & = \sum_{\mathcal Z} \mathcal P(\mathcal X,\mathcal Z) \\ & = \sum_{\mathcal Z} \mathcal P(\mathcal X \mid \mathcal Z) \cdot \mathcal P(\mathcal Z) \\ & = \sum_{k=1}^{\mathcal K} p_{k} \cdot \mathcal N(\mu_{k},\Sigma_{k}) \quad (\sum_{k=1}^{\mathcal K} p_k = 1) \end{aligned}$
主要应用在无监督学习的聚类任务。其概率图结构表示如下：
动态模型( $\text{Dynamic Model}$ )系列：从时间、序列角度随机变量从有限到无限。代表模型有隐马尔可夫模型( $\text{Hidden Markov Model,HMM}$ )，卡尔曼滤波( $\text{Kalman Filter}$ )，粒子滤波( $\text{Praticle Filter}$ )。它们均服从齐次马尔可夫假设与观测独立性假设：
$\begin{cases} \mathcal P(i_{t+1} \mid i_t,\cdots) = \mathcal P(i_{t+1} \mid i_t) \\ \mathcal P(o_t \mid i_t,\cdots) = \mathcal P(o_t \mid i_t) \end{cases}$
对应的概率图结构表示如下：
从空间角度的随机变量从有限到无限，代表模型有高斯过程( $\text{Gaussian Process}$ )，准确的说，高斯过程是联合正态分布的无限维的广义延伸，主要应用在高维的非线性回归任务中：
由于连续域中的片段是无法划分完的，因此仅示例 $N$ 个重要片段。
后续补充:狄利克雷过程~
$\begin{cases} \xi_{t_1} \sim \mathcal N(\mu_{t_1},\Sigma_{t_1}) \\ \xi_{t_2} \sim \mathcal N(\mu_{t_2},\Sigma_{t_2}) \\ \cdots \\ \xi_{t_N} \sim \mathcal N(\mu_{t_N},\Sigma_{t_N}) \\ \end{cases}$
- 对比于高斯分布，仅需要知道该分布的参数(均值、方差)，就可以确定一个高斯分布；
- 高斯过程中，连续域中的任意一个片段均服从一个高斯分布，它的参数可能是无限个。如高斯过程这种参数空间从有限到无限的模型，被称作 非参数贝叶斯模型( $\text{Non-Parameter Bayessian Model}$ )。
以隐狄利克雷分配( $\text{Latent Dirichlet Allocation,LDA}$ )为代表的 $\text{Mixed Memership Model}$ 。
以因子分析( $\text{Factorial Analysis,FA}$ )为代表的因子模型( $\text{Factorial Model}$ )，其他模型有概率性主成分分析( $\text{Probabilistic Principal Component Analysis,P-PCA}$ )等。

后续模型就是概率图模型与深度学习相结合的概率生成模型——深度生成模型。

以玻尔兹曼机( $\text{Boltzmann Machine,BM}$ )为代表的能量模型( $\text{Energy-based Model}$ )。玻尔兹曼机的概率图结构表示如下：

对应的模型表示为(对联合概率分布 $\mathcal P(v,h)$ 进行建模。下同)：
其中 $v^T \mathcal R \cdot v;h^T\mathcal S \cdot h;v^T\mathcal W \cdot h$ 分别表示包含边相关联结点之间的能量表达; $b^Tv;c^Th$ 分别表示各结点内部的能量表达( $b, c$ 可看作偏置信息)
$\begin{aligned} \mathcal P(v,h) & = \frac{1}{\mathcal Z} \exp \{- \mathbb E [v,h]\} \\ & = \frac{1}{\mathcal Z} \exp \{\left[v^T \mathcal R \cdot v + b^T v + v^T \mathcal W \cdot h + h^T\mathcal S \cdot h + c^Th\right]\} \end{aligned}$
其中包括受限玻尔兹曼机( $\text{Restricted Boltzmann Machine,RBM}$ )，对应概率图结构表示如下：

对应模型表示为：
和玻尔兹曼机相比，受限玻尔兹曼机隐变量、观测变量内部各随机变量相互独立。
$\begin{aligned} \mathcal P(v,h) & = \frac{1}{\mathcal Z} \exp \{-\mathbb E(v,h)\} \\ & = \frac{1}{\mathcal Z} \exp (v^T\mathcal W \cdot h + b^Tv + c^Th) \end{aligned}$
$\text{Sigmoid}$ 信念网络( $\text{Sigmoid Belief Network}$ )，它的概率图结构表示如下：

对应模型表示为：
由于 $\text{Sigmoid}$ 信念网络是有向图模型，因而可以通过结点之间的因果关系对模型进行表示。
$\begin{aligned} \mathcal P(v,h) & = \mathcal P (v_i^{(1)},v_{i+1}^{(1)},h_{i}^{(1)},h_{i+1}^{(1)},h_{i+2}^{(1)},h_{j}^{(2)},h_{j+1}^{(2)}) \\ & = \mathcal P(h_j^{(2)}) \cdot \mathcal P(h_{j+1}^{(2)}) \cdot \mathcal P(h_{i}^{(1)} \mid h_{j}^{(2)},h_{j+1}^{(2)}) \cdot \mathcal P(h_{i+1}^{(1)} \mid h_{j}^{(2)},h_{j+1}^{(2)}) \cdot \mathcal P(v_i^{(1)} \mid h_{i}^{(1)},h_{i+1}^{(1)}) \cdot \mathcal P(h_{i+2}^{(1)}) \cdot \mathcal P(v_{i+1}^{(1)} \mid h_{i+1}^{(1)},h_{i+2}^{(1)}) \end{aligned}$
深度信念网络( $\text{Deep Belief Network,DBN}$ )，它的概率图结构表示如下：

对应模型表示为：
$\begin{aligned} & \mathcal P(v^{(1)},h^{(1)},h^{(2)},h^{(3)}) = \prod_{i=1}^{\mathcal D} \mathcal P(v_i^{(1)} \mid h^{(1)}) \cdot \prod_{j=1}^{\mathcal P^{(1)}} \mathcal P(h_j^{(1)} \mid h^{(2)}) \cdot \mathcal P(h^{(2)},h^{(3)}) \\ & \begin{cases} \mathcal P(v_i^{(1)} \mid h^{(1)}) = \text{Sigmoid} \left\{\left[\mathcal W_{h^{(1)} \to v_i^{(1)}}\right]^T h^{(1)} + b_i^{(0)}\right\} \quad \left[\mathcal W_{h^{(1)} \to v_i^{(1)}}\right]_{\mathcal P^{(1)} \times 1} \in \mathcal W^{(1)} \\ \mathcal P(h_j^{(1)} \mid h^{(2)}) = \text{Sigmoid} \left\{\left[\mathcal W_{h^{(2)} \to h_j^{(1)}}\right]^T h^{(2)} + b_j^{(1)}\right\} \quad \left[\mathcal W_{h^{(2)} \to h_j^{(1)}}\right]_{\mathcal P^{(2)} \times 1} \in \mathcal W^{(2)} \\ \mathcal P(h^{(2)},h^{(3)}) = \frac{1}{\mathcal Z} \exp \left\{ \left[h^{(3)}\right]^T \mathcal W^{(3)} \cdot h^{(2)} + \left[h^{(2)}\right]^T\cdot b^{(2)} + \left[h^{(3)}\right]^Tb^{(3)}\right\} \\ \end{cases} \end{aligned}$
深度玻尔兹曼机( $\text{Deep Boltzmann Machine,DBM}$ )，它的概率图结构表示如下：
将神经网络与概率相结合的生成模型。
如：变分自编码器( $\text{Variational Auto-Encoder,VAE}$ )，它的概率图结构依然是混合模型(引入隐变量模型)的概率图结构。
生成对抗网络( $\text{Generative Adversarial Networks,GAN}$ )，其计算图结构表示如下：
以及流模型( $\text{Flow-based Model}$ )和自回归模型( $\text{Autoregressive Model}$ )。

相关参考：
生成模型2-监督VS非监督

文章知识点与官方知识档案匹配，可进一步学习相关知识

OpenCV技能树首页概览20168 人正在系统学习中

机器学习笔记之生成模型综述(二)监督学习与无监督学习

机器学习笔记之生成模型综述——监督学习与无监督学习

引言

回顾：生成模型介绍

判别方式：生成模型 $\text{VS}$ 判别模型

生成模型的建模手段

监督学习与无监督学习

监督学习模型

基于监督学习的非概率模型

基于监督学习的概率模型

无监督学习

基于无监督学习的概率模型

基于无监督学习的非概率模型

生成模型介绍

评论记录：

机器学习笔记之生成模型综述——监督学习与无监督学习

引言

回顾：生成模型介绍

判别方式：生成模型 VS \text{VS} VS 判别模型

生成模型的建模手段

监督学习与无监督学习

监督学习模型

基于监督学习的非概率模型

基于监督学习的概率模型

无监督学习

基于无监督学习的概率模型

基于无监督学习的非概率模型

生成模型介绍

评论记录：

判别方式：生成模型 $\text{VS}$ 判别模型