推荐|因子分析、主成分分析（PCA）、独立成分分析（ICA）—

因子分析是一种数据简化技术，是一种数据的降维方法。
因子分子可以从原始高维数据中，挖掘出仍然能表现众多原始变量主要信息的低维数据。此低维数据可以通过高斯分布、线性变换、误差扰动生成原始数据。
因子分析基于一种概率模型，使用EM算法来估计参数。

主成分分析（PCA）也是一种特征降维的方法。
学习理论中，特征选择是要剔除与标签无关的特征，比如“汽车的颜色”与“汽车的速度”无关；
PCA中要处理与标签有关、但是存在噪声或者冗余的特征，比如在一个汽车样本中，“千米/小时”与“英里/小时”中有一个冗余了。
PCA的方法比较直接，只要计算特征向量就可以降维了。

独立成分分析（ICA）是一种主元分解的方法。
其基本思想是从一组混合的观测信号中分离出独立信号。比如在一个大房间里，很多人同时在说话，样本是这个房间里各个位置的一段录音，ICA可以从这些混合的录音中分离出每个人独立的说话的声音。
ICA认为观测信号是若干个统计独立的分量的线性组合，ICA要做的是一个解混过程。

因为因子分析、PCA、ICA都是对数据的处理方法，就放在这同一份总结里了。

1、因子分析（Factor analysis）

1.1、因子分析的直观理解

因子分析认为高维样本点实际上是由低维样本点经过高斯分布、线性变换、误差扰动生成的。让我们来看一个简单例子，对低维数据如何生成高维数据有一个直观理解。

假设我们有m=5个2维原始样本点如下：

图一

那么按照因子分析的做法，原始数据可以由以下过程生成：
①在一个低维空间（此处是1维）中，存在着由高斯分布生成的 $m$ 个点 $z^{(i)}$ ， $z^{(i)}$ ~ $N(0,I)$ ：

图二
②使用某个

Λ=(a,bT) $\Lambda=(a,b^T)$ 将1维的

$z$ 映射到2维的空间中：
这里写图片描述

图三
③加上

$\mu(\mu_1,\mu_2)^T$ ，让直线过

$\mu$ ——实际上是将样本点横坐标加

$\mu_1$ ，纵坐标加

$\mu_2$ ：

图四
④对直线上的点做一定的扰动，其扰动为

$\varepsilon$ ~

$N(0,\psi)$ ：
这里写图片描述

图五
黑点就是图一中的原始数据。

1.2、因子分析的一般过程

因子分析认为m个n维特征的训练样例 $(x^{(1)},x^{(2)},\cdots,x^{(m)})$ 的产生过程如下：
①在一个 $k$ 维空间中，按照多元高斯分布生成m个 $z^{(i)}$ （ $k$ 维向量， $k<n$ ），即
$z^{(i)}$ ~ $N(0,I)$
②存在一个变换矩阵 $\Lambda\in R^{n*k}$ ，将 $z^{(i)}$ 映射到 $n$ 维空间中，即
$\Lambda z^{(i)}$
③将 $\Lambda z^{(i)}$ （ $n$ 维）加上一个均值 $\mu$ （ $n$ 维），即
$\mu+\Lambda z^{(i)}$
④对每个点加上符合多元高斯分布的扰动 $\varepsilon$ ~ $N(0,\psi)$ （ $n$ 维向量），即
$x^{(i)}=\mu+\Lambda z^{(i)}+\varepsilon$

1.3、因子分析模型

模型与参数概述

由上面的分析，我们定义因子分析的模型为：

$z$ ~

$N(0,I)$

$\varepsilon$ ~

$N(0,\psi)$

$x=\mu+\Lambda z+\varepsilon\tag{1}$
其中

$z$ 和

$\varepsilon$ 是相互独立的。并且由上面的分析过程，我们可以直观地感受到我们的 参数是 $\mu\in R^n$ 、 $\Lambda\in R^{n*k}$ 、 $\psi\in R^{n*n}$ 。

另一个等价的假设是， $(x,z)$ 联合分布如下，其中 $z \in R^k$ 是一个隐藏随机变量：

$x\mid z$ ~

$N(\mu+\Lambda z,\psi)$

$\tag{2}$
这个假设会在使用EM算法求解因子分析参数，E步中迭代

$Q$ 分布的时候用到。

接下来的课程，是使用高斯模型的矩阵表示法来对模型进行分析。矩阵表示法认为 $z$ 与 $x$ 联合符合多元高斯分布，即：

$\left[ \begin{matrix}z\\x \end{matrix}\right]$ ~

$N(\mu_{zx},\Sigma)$
多元高斯分布的原始模型是：

$f(x)=\frac{1}{\sqrt{2\pi^k\left|\Sigma \right|}}\exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))\tag{3}$
其中

$x$ 是

$k$ 维向量，

$\mu$ 是

$k$ 维向量，

$\Sigma$ 是

$k*k$ 协方差矩阵。
很明显在多元高斯分布模型下，参数是

$\mu_{zx},\Sigma$ ——它们是由

$x,z$ 的联合分布生成的，所以我们可以用我们的原始参数

$\mu,\Lambda,\psi$ 来表示

$\mu_{zx},\Sigma$ ，求得

$x$ 的边缘分布，再把相关参数带入式（3），这就得到了关于我们参数的概率分布，然后就可以通过最大似然估计来求取我们的参数。

求取 $\mu_{zx}$
$\mu_{zx}$ 是 $x,z$ 联合分布的期望值（期望的定义：所有结果*相应概率的总和）：

$\mu_{zx}=E\left[ \begin{matrix}z\\x \end{matrix}\right]=\left[ \begin{matrix}E(z)\\E(x) \end{matrix}\right]\tag{4}$

由 $z$ ~ $N(0,I)$ 我们可以简单获得 $E(z)=0$ 。
类似地由 $\varepsilon$ ~ $N(0,\psi)$ ， $x=\mu+\Lambda z+\varepsilon$ ， $\mu$ 是一个常数，我们有：

$\begin{align} E[x]&=E[\mu+\Lambda z+\varepsilon]\\ &=E[\mu]+\Lambda E[z]+E[\varepsilon]\\ &=\mu+0+0\\ &=\mu \tag{5} \end{align}$
所以：
$\mu_{zx}=\left[ \begin{matrix}\vec 0\\\mu \end{matrix}\right]\tag{6}$

求取 $\Sigma$

$\Sigma$ 是 $x,z$ 联合分布的协方差矩阵。
方差，度量随机变量与期望之间的偏离程度，定义如下：

$Var(X)=E((X-E(X))^2)=E(X^2)-(E(X)^2)\tag{7}$
协方差，两个变量总体误差的期望，定义如下：
$Cov(X,Y)=E((X-E(X))(Y-E(Y)))\tag{8}$
协方差、方差、期望之间的一些相互关系如下：
$Cov(X,X)=Cov(X)=Var(X)=E(XX^T)=\sigma^2\tag{9}$

下面开始求取 $\Sigma$ 。

$\begin{align} \Sigma&=Cov\left[ \begin{matrix}z\\x \end{matrix}\right]\\ &=\left[ \begin{matrix}\Sigma_{zz}&\Sigma_{zx}\\\Sigma_{xz}&\Sigma_{xx} \end{matrix}\right]\\ &=E\left[ \begin{matrix}(z-E(z))(z-E(z))^T& (z-E(z))(x-E(x))^T \\(x-E(x))(z-E(z))^T&(x-E(x))(x-E(x))^T \end{matrix}\right] \tag{10} \end{align}$

由 $z$ ~ $N(0,I)$ ，可以简单得到：

$\Sigma_{zz}=Cov(z)=\sigma^2=I\tag{11}$
由 $\varepsilon$ ~ $N(0,\psi)$ ， $x=\mu+\Lambda z+\varepsilon$ ， $E(x)=\mu$ ，并且 $z$ 和 $\varepsilon$ 是相互独立，有：
$\begin{align} \Sigma_{zx}&=E[ (z-E(z))(x-E(x))^T]\\ &=E[(z-0)(\mu+\Lambda z+\varepsilon-\mu)^T]\\ &=E[zz^T]\Lambda^T+E[z\varepsilon^T]\\ &=I\Lambda^T+0\\ &=\Lambda^T \tag{12} \end{align}$
类似地，我们可以得到：
$\begin{align} \Sigma_{xx}&=E[ (x-E(x))(x-E(x))^T]\\ &=E[(\mu+\Lambda z+\varepsilon-\mu)(\mu+\Lambda z+\varepsilon-\mu)^T]\\ &=\Lambda E[zz^T]\Lambda^T+E[\varepsilon\varepsilon^T]\\ &=\Lambda I\Lambda^T + \psi\\ &=\Lambda \Lambda^T + \psi \tag{13} \end{align}$

用最大似然估计法求解参数

经过上面的步骤，我们就把 $\mu_{zx},\Sigma$ 用我们的参数 $\mu,\Lambda,\psi$ 表示出来了：

$\left[ \begin{matrix}z\\x \end{matrix}\right]$ ~ $N(\mu_{zx},\Sigma)$ ~ $N(\left[ \begin{matrix}\vec 0\\\mu \end{matrix}\right],\left[ \begin{matrix}I&\Lambda^T\\\Lambda&\Lambda \Lambda^T + \psi \end{matrix}\right])$
然后我们可以求得 $x$ 的边缘分布：
$x$ ~ $N(\mu,\Lambda \Lambda^T + \psi)$
因此，给定一个训练集 $\begin{Bmatrix} x^{(i)};i=1,2,\cdots,m \end{Bmatrix}$ ，把参数带入式（3），我们可以写出下面的似然函数：

因子分析、主成分分析（PCA）、独立成分分析（ICA）——斯坦福CS229机器学习个人总结（六）

1、因子分析（Factor analysis）

1.1、因子分析的直观理解

1.2、因子分析的一般过程

1.3、因子分析模型

模型与参数概述

求取 $\Sigma$

用最大似然估计法求解参数

评论记录：

1、因子分析（Factor analysis）

1.1、因子分析的直观理解

1.2、因子分析的一般过程

1.3、因子分析模型

模型与参数概述

求取Σ\Sigma

用最大似然估计法求解参数

评论记录：

求取 $\Sigma$