机器学习笔记之玻尔兹曼机——基于平均场推断梯度求解

引言
- 回顾：玻尔兹曼机模型参数梯度求解困难与MCMC方法的处理方式
- 变分推断方法处理玻尔兹曼机对数似然梯度

引言

上一节介绍了使用马尔可夫链蒙特卡洛方法(MCMC)处理波尔兹曼机模型参数梯度求解过程中概率分布不可求的问题，本节将介绍变分推断方法处理梯度问题。

回顾：玻尔兹曼机模型参数梯度求解困难与MCMC方法的处理方式

相比于受限玻尔兹曼机，玻尔兹曼机对于随机变量之间关联关系的约束更加宽松，观测变量、隐变量自身之间也存在关联关系。这里以观测变量与隐变量之间关联关系的模型参数 $\mathcal W$ 为例，关于 $\mathcal W$ 的对数似然梯度(Log Likelihood Gradient)可表示为：
$\nabla_{\mathcal W} \left[\log \mathcal P(v^{(i)};\theta)\right] = \mathbb E_{\mathcal P_{data}} \left[v^{(i)}(h^{(i)})^T\right] - \mathbb E_{\mathcal P_{model}} \left[v^{(i)}(h^{(i)})^T\right]$
其中 $\mathcal P_{data}$ 表示真实分布。其底层逻辑是从客观存在的概率模型 $\mathcal P_{data}(\mathcal V)$ 随机生成 $N$ 个样本，构成当前的样本集合 $\mathcal V = \{v^{(1)},v^{(2)},\cdots,v^{(N)}\}$ 。

但这里的真实分布 $\mathcal P_{data}$ 和配分函数——随机最大似然正相中的 $\mathcal P_{data}$ 中存在稍许不同：

随机最大似然中的 $\mathcal P_{data}$ 是纯粹使用蒙特卡洛方法的逆向推导产生的分布：
$\mathbb E_{\mathcal P_{data}} \left[\nabla_{\theta} \log \hat {\mathcal P}(x^{(i)};\theta)\right] \approx \frac{1}{N} \sum_{i=1}^N \nabla_{\theta} \log \hat {\mathcal P}(x^{(i)};\theta)$
可模型参数 $\mathcal W$ (玻尔兹曼机的其他参数也是一样的)梯度的正相并不仅仅包含蒙特卡洛方法的逆向推导，还包含关于隐变量的后验概率：
详细推导见：玻尔兹曼机——基本介绍
$\begin{aligned} \frac{1}{N} \sum_{i=1}^{N} \sum_{h^{(i)}} \mathcal P(h^{(i)} \mid v^{(i)}) \left[v^{(i)}(h^{(i)})^T\right] & = \frac{1}{N}\sum_{i=1}^N \left\{\mathbb E_{\mathcal P(h^{(i)} \mid v^{(i)})} \left[v^{(i)}(h^{(i)})^T\right]\right\} \\ & \approx \mathbb E_{\mathcal P_{data}(v^{(i)} \in \mathcal V)} \left\{\mathbb E_{\mathcal P(h^{(i)} \mid v^{(i)})} \left[v^{(i)}(h^{(i)})^T\right]\right\} \\ & = \mathbb E_{\mathcal P_{data}} \left[v^{(i)}(h^{(i)})^T\right] \\ \mathcal P_{data} \Rightarrow \mathcal P_{data}(v^{(i)} \in \mathcal V) & \cdot \mathcal P_{model}(h^{(i)} \mid v^{(i)}) \end{aligned}$

从上式推导可以看出，玻尔兹曼机中无论是正相还是负相，均存在包含隐变量的概率分布：

P d a t a \Rightarrow P m o d e l (h (i) ∣ v (i)) P m o d e l \Rightarrow P m o d e l (h (i), v (i))

$\begin{aligned} \mathcal P_{data} \Rightarrow \mathcal P_{model}(h^{(i)} \mid v^{(i)}) \\ \mathcal P_{model} \Rightarrow \mathcal P_{model}(h^{(i)},v^{(i)}) \end{aligned}$

P_{d a t a} \Rightarrow P_{m o d e l} (h^{(i)} ∣ v^{(i)}) P_{m o d e l} \Rightarrow P_{m o d e l} (h^{(i)}, v^{(i)})

在玻尔兹曼机的约束条件中，无论是 $\mathcal P_{model}(h^{(i)},v^{(i)})$ 还是 $\mathcal P_{model}(h^{(i)} \mid v^{(i)})$ ，都是极难近似求解的。

在80年代早期，没有给出变分推断概念时，针对模型参数 $\mathcal W$ 的对数似然梯度是通过吉布斯采样的方式进行求解。这种方式求解的核心思路是：针对单个变量(观测变量、隐变量)的后验概率进行表示，而不是隐变量/观测变量的后验概率。
关于单个变量后验概率的推导过程详见玻尔兹曼机——梯度求解(MCMC方法)

P (v (i) i ∣ h (i), v (i) - i) = ⎧ ⎩ ⎨ ⎪ ⎪ Sigmoid {\sum P j = 1 W i j \cdot h (i) j + \sum D k \neq i L i k \cdot v (i) k} v (i) i = 1 1 - Sigmoid {\sum P j = 1 W i j \cdot h (i) j + \sum D k \neq i L i k \cdot v (i) k} v (i) i = 0 P (h (i) j ∣ v (i), h (i) - j) = ⎧ ⎩ ⎨ ⎪ ⎪ Sigmoid {\sum D i = 1 W i j \cdot v (i) i + \sum m \neq j J j m \cdot h (i) m} h (i) j = 1 1 - Sigmoid {\sum D i = 1 W i j \cdot v (i) i + \sum m \neq j J j m \cdot h (i) m} h (i) j = 0

$\begin{aligned} \mathcal P(v_i^{(i)} \mid h^{(i)},v_{-i}^{(i)}) = \begin{cases} \text{Sigmoid} \left\{\sum_{j=1}^{\mathcal P} \mathcal W_{ij} \cdot h_j^{(i)} + \sum_{k \neq i}^{\mathcal D} \mathcal L_{ik} \cdot v_k^{(i)}\right\} \quad v_i^{(i)} = 1\\ 1 - \text{Sigmoid} \left\{\sum_{j=1}^{\mathcal P} \mathcal W_{ij} \cdot h_j^{(i)} + \sum_{k \neq i}^{\mathcal D} \mathcal L_{ik} \cdot v_k^{(i)}\right\} \quad v_i^{(i)} = 0 \end{cases} \\ \mathcal P(h_j^{(i)} \mid v^{(i)},h_{-j}^{(i)}) = \begin{cases} \text{Sigmoid} \left\{\sum_{i=1}^{\mathcal D} \mathcal W_{ij} \cdot v_i^{(i)} + \sum_{m \neq j} \mathcal J_{jm} \cdot h_m^{(i)}\right\} \quad h_j^{(i)} = 1 \\ 1 - \text{Sigmoid} \left\{\sum_{i=1}^{\mathcal D} \mathcal W_{ij} \cdot v_i^{(i)} + \sum_{m \neq j} \mathcal J_{jm} \cdot h_m^{(i)}\right\} \quad h_j^{(i)} = 0 \\ \end{cases} \end{aligned}$

P (v_{i}^{(i)} ∣ h^{(i)}, v_{- i}^{(i)}) = ⎩ ⎨ ⎧ Sigmoid {\sum_{j = 1}^{P} W_{ij} \cdot h_{j}^{(i)} + \sum_{k \neq = i}^{D} L_{ik} \cdot v_{k}^{(i)}} v_{i}^{(i)} = 1 1 - Sigmoid {\sum_{j = 1}^{P} W_{ij} \cdot h_{j}^{(i)} + \sum_{k \neq = i}^{D} L_{ik} \cdot v_{k}^{(i)}} v_{i}^{(i)} = 0 P (h_{j}^{(i)} ∣ v^{(i)}, h_{- j}^{(i)}) = ⎩ ⎨ ⎧ Sigmoid {\sum_{i = 1}^{D} W_{ij} \cdot v_{i}^{(i)} + \sum_{m \neq = j} J_{jm} \cdot h_{m}^{(i)}} h_{j}^{(i)} = 1 1 - Sigmoid {\sum_{i = 1}^{D} W_{ij} \cdot v_{i}^{(i)} + \sum_{m \neq = j} J_{jm} \cdot h_{m}^{(i)}} h_{j}^{(i)} = 0

此时，上述两种概率是可求的，在吉布斯采样过程中，通过固定待采样之外的其他随机变量，针对待采样的随机变量计算概率分布，并进行采样。直到所有随机变量均采样完毕，第一次迭代结束；最终通过若干次迭代，最终达到平稳分布。

基于该分布的采样结果可以直接近似模型参数的梯度 $\nabla_{\mathcal W} \left[\log \mathcal P(v^{(i)};\theta)\right]$ 使之跳过对正相、负相期望的求解。
这里如果有不同理解的小伙伴，欢迎评论区一起讨论。

变分推断方法处理玻尔兹曼机对数似然梯度

该方法的核心在于使用变分推断直接近似求解后验概率 $\mathcal P_{model}(h^{(i)} \mid v^{(i)})$ ，从而避免原先使用MCMC采样的方式进行求解。
这种方法针对于大规模的随机变量集合，它的采样时间同样是随着随机变量数量的增加指数级别地增长。

关于正向部分 $\mathcal P_{data} \Rightarrow \mathcal P_{data}(v^{(i)} \in \mathcal V) \cdot \mathcal P_{model}(h^{(i)} \mid v^{(i)})$ 在之前的MCMC采样方法需要将 $\mathcal P_{model}(h^{(i)} \mid v^{(i)})$ 近似出来或者使用受限玻尔兹曼机的约束条件将 $\mathcal P_{model}(h^{(i)} \mid v^{(i)})$ 使用 $\text{Sigmoid}$ 函数描述出来。本节使用基于平均场假设的变分推断(Variational Inference)对 $\mathcal P_{model}(h^{(i)} \mid v^{(i)})$ 进行描述。

关于 $\mathcal P_{model}(h^{(i)} \mid v^{(i)})$ 变分推断的核心是找到一个 合适的分布 $\mathcal Q(h^{(i)} \mid v^{(i)})$ ，使得 $\mathcal Q(h^{(i)} \mid v^{(i)})$ 近似 $\mathcal P_{model}(h^{(i)} \mid v^{(i)})$ 。而变分推断的底层逻辑依然是极大似然估计：
将 $v^{(i)}$ 在模型中对应的隐变量 $h^{(i)}$ 引进来。

$\begin{aligned} \log \mathcal P(v^{(i)};\theta) & = \log \left[\frac{\mathcal P(v^{(i)},h^{(i)};\theta)}{\mathcal P(h^{(i)} \mid v^{(i)};\theta)}\right]\\ & = \log \mathcal P(v^{(i)},h^{(i)};\theta) - \log \mathcal P(h^{(i)} \mid v^{(i)};\theta) \end{aligned}$ \\

$\begin{cases} \theta = \{\mathcal W,\mathcal L,\mathcal J\} \\ v^{(i)} \in \mathcal V = \{v^{(1)},v^{(2)},\cdots,v^{(N)}\} \end{cases}$

lo g P (v^{(i)}; θ) = lo g [\frac{P ( v ^{(i)} , h ^{(i)} ; θ )}{P ( h ^{(i)} ∣ v ^{(i)} ; θ )}] = lo g P (v^{(i)}, h^{(i)}; θ) - lo g P (h^{(i)} ∣ v^{(i)}; θ) {θ = {W, L, J} v^{(i)} \in V = {v^{(1)}, v^{(2)}, \dots, v^{(N)}}

在此基础上，将近似分布

\mathcal Q(h^{(i)}\mid v^{(i)};\phi)

引入，其中

\phi

表示这个近似分布的参数信息。

\begin{aligned} \log \mathcal P(v^{(i)};\theta) & = \left[\log \mathcal P(v^{(i)},h^{(i)};\theta) - \log \mathcal Q(h^{(i)}\mid v^{(i)};\phi)\right] - \left[\log \mathcal P(h^{(i)} \mid v^{(i)};\theta) - \log \mathcal Q(h^{(i)}\mid v^{(i)};\phi)\right] \\ & = \log \left[\frac{\mathcal P(v^{(i)},h^{(i)};\theta)}{\mathcal Q(h^{(i)}\mid v^{(i)};\phi)}\right] - \log \left[\frac{\mathcal P(h^{(i)} \mid v^{(i)};\theta)}{\mathcal Q(h^{(i)}\mid v^{(i)};\phi)}\right] \end{aligned}

等式两端同时对

h^{(i)}

求解积分，由于是玻尔兹曼机，所有变量均是服从伯努利分布的离散型随机变量。因此使用

\sum_{h^{(i)}}

~
再次强调，有负号才是

\mathcal K\mathcal L\text{ Divergence}

\begin{aligned}\text{Equation Left : } \sum_{h^{(i)}} \mathcal Q(h^{(i)} \mid v^{(i)};\phi) \log \mathcal P(v^{(i)};\theta) & = \log \mathcal P(v^{(i)};\theta) \cdot \underbrace{\sum_{h^{(i)}} \mathcal Q(h^{(i)}\mid v^{(i)};\phi)}_{=1} = \log \mathcal P(v^{(i)};\theta) \end{aligned}

至此，将证据下界(Evidence Lower Bound,ELBO)表示如下：
证据下界(ELBO)也称作

\mathcal Q(h^{(i)} \mid v^{(i)};\phi)

的变分。用

\mathcal L \left[\mathcal Q(h^{(i)} \mid v^{(i)};\phi)\right]

符号表示。

\mathcal H \left[\mathcal Q(h^{(i)} \mid v^{(i)};\phi)\right] = - \sum_{h^{(i)}} \mathcal Q(h^{(i)} \mid v^{(i)};\phi) \log \mathcal Q(h^{(i)} \mid v^{(i)};\phi)

表示概率分布

\mathcal Q(h^{(i)} \mid v^{(i)};\phi)

的熵。

\begin{aligned} \text{ELBO} & = \mathcal L \left[\mathcal Q(h^{(i)} \mid v^{(i)};\phi)\right] \\ & = \sum_{h^{(i)}} \mathcal Q(h^{(i)} \mid v^{(i)};\phi)\log \left[\frac{\mathcal P(v^{(i)},h^{(i)};\theta)}{\mathcal Q(h^{(i)}\mid v^{(i)};\phi)}\right] \\ & = \sum_{h^{(i)}} \mathcal Q(h^{(i)} \mid v^{(i)};\phi) \left[\log \mathcal P(v^{(i)},h^{(i)};\theta) - \log \mathcal Q(h^{(i)} \mid v^{(i)};\phi)\right] \\ & = \sum_{h^{(i)}} \mathcal Q(h^{(i)} \mid v^{(i)};\phi) \log \mathcal P(v^{(i)},h^{(i)};\theta) - \sum_{h^{(i)}} \mathcal Q(h^{(i)} \mid v^{(i)};\phi) \log \mathcal Q(h^{(i)} \mid v^{(i)};\phi) \\ & = \sum_{h^{(i)}} \mathcal Q(h^{(i)} \mid v^{(i)};\phi) \log \mathcal P(v^{(i)},h^{(i)};\theta) + \mathcal H \left[\mathcal Q(h^{(i)} \mid v^{(i)};\phi)\right] \end{aligned}

后续的求解思路是：通过求解近似分布的参数 $\phi$ ，使得 $\text{ELBO}$ 达到最大，等价于 $\mathcal K\mathcal L \text{ Divergence}$ 趋近于 $0$ ，最终使 $\mathcal Q(h^{(i)} \mid v^{(i)};\phi)$ 与 $\mathcal P(h^{(i)}\mid v^{(i)};\theta)$ 最近似。
至此，将求解近似分布

\mathcal Q(h^{(i)}\mid v^{(i)};\phi)

的问题转移至求解最优参数

\hat \phi

，使得

\text{ELBO}

达到最大：

\hat \phi = \mathop{\arg\max}\limits_{\phi} \mathcal L \left[\mathcal Q(h^{(i)} \mid v^{(i)};\phi)\right]

在介绍基于平均场假设变分推断的过程中，关于

\mathcal Q(h^{(i)}\mid v^{(i)};\phi)

的平均场假设具体是将 $h^{(i)} = \left(h_1^{(i)},h_2^{(i)},\cdots,h_{\mathcal P}^{(i)}\right)^T$ 划分成若干个相互独立的子集合。由于相互独立，因而后验概率分布可描述为各子集合后验结果的乘积形式：
由于

h^{(i)}

中一共包含

\mathcal P

个随机变量，这里就假设划分的子集合数量为

\mathcal P

，也就是每个子集合仅包含

1

个随机变量。

\mathcal Q(h^{(i)} \mid v^{(i)};\phi) = \prod_{j=1}^{\mathcal P} \mathcal Q(h_j^{(i)} \mid v^{(i)};\phi)

由于

h_j^{(i)}(i=1,2,\cdots,\mathcal P)

均服从伯努利分布，那么设定符号对概率分布

\mathcal Q(h_j^{(i)} \mid v^{(i)};\phi)

进行如下表示：

\begin{cases} \mathcal Q(h_j^{(i)}=1 \mid v^{(i)};\phi) = \phi_j \\ \mathcal Q(h_j^{(i)}=0 \mid v^{(i)};\phi) = 1- \phi_j \end{cases}

\phi_j

虽然不是参数，它只是一个描述概率的实数，但

\phi_j

如果已经求解，那么

\mathcal Q(h_j^{(i)} \mid v^{(i)};\phi)

自然也求解了。
因此，也可以将模型参数

\phi

看作是'包含各随机变量概率信息的集合'

\{\phi_1,\phi_2,\cdots,\phi_{\mathcal P}\}

至此，将变分推断的求解目标

\hat \phi

分解成了

\mathcal P

个相互独立的概率信息

\hat {\phi}_j(j=1,2,\cdots,\mathcal P)

：
每一个

\hat {\phi}_j(j=1,2,\cdots,\mathcal P)

都要求解。

\hat {\phi}_j = \mathop{\arg\max}\limits_{\phi_j} \mathcal L \left[\mathcal Q(h^{(i)} \mid v^{(i)};\phi)\right]

将

\text{ELBO}

的展开式带入，并将

\mathcal P(v^{(i)},h^{(i)};\theta) = \frac{1}{\mathcal Z} \exp \left\{(v^{(i)})^T\mathcal W\cdot h^{(i)} + \frac{1}{2} (v^{(i)})^T\mathcal L \cdot v^{(i)} + \frac{1}{2} (h^{(i)})^T\mathcal J \cdot h^{(i)}\right\}

进行展开。玻尔兹曼机——概率密度函数回顾

\log

和

\exp

之间相互消掉了。

\begin{aligned} \hat {\phi}_j & = \mathop{\arg\max}\limits_{\phi_j} \left\{\sum_{h^{(i)}} \mathcal Q(h^{(i)} \mid v^{(i)};\phi) \log \mathcal P(v^{(i)},h^{(i)};\theta) + \mathcal H \left[\mathcal Q(h^{(i)} \mid v^{(i)};\phi)\right]\right\} \\ & = \mathop{\arg\max}\limits_{\phi_j} \left\{\sum_{h^{(i)}} \mathcal Q(h^{(i)} \mid v^{(i)};\phi) \left[-\log \mathcal Z + (v^{(i)})^T\mathcal W\cdot h^{(i)} + \frac{1}{2} (v^{(i)})^T\mathcal L \cdot v^{(i)} + \frac{1}{2} (h^{(i)})^T\mathcal J \cdot h^{(i)}\right] + \mathcal H \left[\mathcal Q(h^{(i)} \mid v^{(i)};\phi)\right]\right\} \end{aligned}

将中括号中的项分成含 $h^{(i)}$ 和不含 $h^{(i)}$ 的两部分：

\begin{cases} \Delta_1 = \sum_{h^{(i)}} \mathcal Q(h^{(i)} \mid v^{(i)};\phi) \left[-\log \mathcal Z + \frac{1}{2} (v^{(i)})^T\mathcal L \cdot v^{(i)}\right] \\ \Delta_2 = \sum_{h^{(i)}} \mathcal Q(h^{(i)} \mid v^{(i)};\phi) \left[(v^{(i)})^T\mathcal W\cdot h^{(i)} + \frac{1}{2} (h^{(i)})^T\mathcal J \cdot h^{(i)}\right] \end{cases}

对

\Delta_1

进行化简：
很明显，

-\log \mathcal Z + \frac{1}{2} (v^{(i)})^T\mathcal L \cdot v^{(i)}

和

h^{(i)}

没有关联关系，可看作常数提到公式前面；

\sum_{h^{(i)}} \mathcal Q(h^{(i)} \mid v^{(i)};\phi)

本身是‘概率密度积分’，其结果是

1

\begin{aligned} \Delta_1 & = \left[-\log \mathcal Z + \frac{1}{2} (v^{(i)})^T\mathcal L \cdot v^{(i)}\right] \underbrace{\sum_{h^{(i)}} \mathcal Q(h^{(i)} \mid v^{(i)};\phi)}_{=1} \\ & = -\log \mathcal Z + \frac{1}{2} (v^{(i)})^T\mathcal L \cdot v^{(i)} \end{aligned}

与此同时，

\mathcal Z = \sum_{h^{(i)},v^{(i)}}\exp\{-\mathbb E(v^{(i)},h^{(i)})\}

是配分函数，和

\phi_j

之间无关联关系(配分函数将

h^{(i)}

全部积分掉了)；并且

\frac{1}{2} (v^{(i)})^T\mathcal L \cdot v^{(i)}

也和

\phi_j

之间无关联关系(

\phi_j

描述的是

h_j^{(i)}

的后验概率信息，而该项中并不包含隐变量)。因此，在求解最优

\hat {\phi}_j

过程中，

\Delta_1

整个项全部可以省略。

\begin{aligned} \hat {\phi_j} & = \mathop{\arg\max}\limits_{\phi_j} \left\{ \Delta_2 + \mathcal H \left[\mathcal Q(h^{(i)} \mid v^{(i)};\phi)\right] \right\} \\ \end{aligned}

后续思路：既然是求解最大值，可以将

\Delta_2 + \mathcal H \left[\mathcal Q(h^{(i)} \mid v^{(i)};\phi)\right]

对

\phi_j

求解偏导数，如果偏导数存在，令其等于0，将最值求出来；如果不存在，可以使用梯度上升法去求解一个近似最优解。

将上述部分展开，分成如下三个部分：
$Δ2+H[Q(h(i)∣v(i);ϕ)]=∑h(i)Q(h(i)∣v(i);ϕ)[(v(i))TW⋅h(i)+12(h(i))TJ⋅h(i)]+H[Q(h(i)∣v(i);ϕ)]=Λ1+Λ2+Λ3{Λ1=∑h(i)Q(h(i)∣v(i);ϕ)[(v(i))TW⋅h(i)]Λ2=12∑h(i)Q(h(i)∣v(i);ϕ)[(h(i))TJ⋅h(i)]Λ3=H[Q(h(i)∣v(i);ϕ)]$

$\begin{aligned} \Delta_2 + \mathcal H \left[\mathcal Q(h^{(i)} \mid v^{(i)};\phi)\right] & = \sum_{h^{(i)}} \mathcal Q(h^{(i)} \mid v^{(i)};\phi) \left[(v^{(i)})^T\mathcal W\cdot h^{(i)} + \frac{1}{2} (h^{(i)})^T\mathcal J \cdot h^{(i)}\right] + \mathcal H \left[\mathcal Q(h^{(i)} \mid v^{(i)};\phi)\right] \\ & = \Lambda_1 + \Lambda_2 + \Lambda_3 \\ & \begin{cases} \Lambda_1 = \sum_{h^{(i)}} \mathcal Q(h^{(i)} \mid v^{(i)};\phi) \left[(v^{(i)})^T\mathcal W\cdot h^{(i)}\right] \\ \Lambda_2 = \frac{1}{2}\sum_{h^{(i)}} \mathcal Q(h^{(i)} \mid v^{(i)};\phi) \left[(h^{(i)})^T\mathcal J \cdot h^{(i)}\right] \\ \Lambda_3 = \mathcal H \left[\mathcal Q(h^{(i)} \mid v^{(i)};\phi)\right] \end{cases} \end{aligned}$

Δ_{2} + H [Q (h^{(i)} ∣ v^{(i)}; ϕ)] = h^{(i)} \sum Q (h^{(i)} ∣ v^{(i)}; ϕ) [(v^{(i)})^{T} W \cdot h^{(i)} + \frac{1}{2} (h^{(i)})^{T} J \cdot h^{(i)}] + H [Q (h^{(i)} ∣ v^{(i)}; ϕ)] = Λ_{1} + Λ_{2} + Λ_{3} ⎩ ⎨ ⎧ Λ_{1} = \sum_{h^{(i)}} Q (h^{(i)} ∣ v^{(i)}; ϕ) [(v^{(i)})^{T} W \cdot h^{(i)}] Λ_{2} = \frac{1}{2} \sum_{h^{(i)}} Q (h^{(i)} ∣ v^{(i)}; ϕ) [(h^{(i)})^{T} J \cdot h^{(i)}] Λ_{3} = H [Q (h^{(i)} ∣ v^{(i)}; ϕ)]

对 $\Lambda_1$ 进行化简：首先将 $\Lambda_1$ 继续展开，将 $h_j^{(i)}$ 表示出来：
需要展开两个部分：将 $\mathcal Q(h^{(i)} \mid v^{(i)};\phi)$ 使用平均场假设进行展开；将矩阵乘法 $(v^{(i)})^T\mathcal W\cdot h^{(i)}$ 进行展开。

$\begin{aligned} \Lambda_1 = \sum_{h^{(i)}} \prod_{l=1}^{\mathcal P} \mathcal Q(h_l^{(i)} \mid v^{(i)};\phi) \cdot \sum_{i=1}^{\mathcal D}\sum_{l=1}^{\mathcal P} v_i^{(i)} \cdot \mathcal W_{il} \cdot h_l^{(i)} \end{aligned}$ $Λ_{1} = h^{(i)} \sum l = 1 \prod P Q (h_{l}^{(i)} ∣ v^{(i)}; ϕ) \cdot i = 1 \sum D l = 1 \sum P v_{i}^{(i)} \cdot W_{i l} \cdot h_{l}^{(i)}$
可以发现，里面的项数是非常多的( $\mathcal D \times \mathcal P$ 项，包含乘法、加法)，以第一项 $v_1^{(i)} \cdot \mathcal W_{11} \cdot h_1^{(i)}$ 为例，观察是否能够向下化简：
从 $\prod_{l=1}^{\mathcal P} \mathcal Q(h_l^{(i)} \mid v^{(i)};\phi)$ 中单独将 $\mathcal Q(h_1^{(i)} \mid v^{(i)};\phi)$ 分出来;并且将 $\sum_{h_1^{(i)}}$ 从 $\sum_{h^{(i)}}$ 中分出来。
实际上，这步操作和变分推断(平均场假设)推导过程的处理方式是相同的。
$\begin{aligned} & \quad \sum_{h^{(i)}} \prod_{l=1}^{\mathcal P} \mathcal Q(h_l^{(i)} \mid v^{(i)};\phi) \cdot \left[v_1^{(i)} \cdot \mathcal W_{11} \cdot h_1^{(i)}\right] \\ & = \sum_{h_1^{(i)}} \mathcal Q(h_1^{(i)} \mid v^{(i)};\phi) \cdot \left[v_1^{(i)} \cdot \mathcal W_{11} \cdot h_1^{(i)}\right] \cdot \sum_{h_2^{(i)},\cdots,h_{\mathcal P}^{(i)}} \prod_{l = 2}^{\mathcal P} \mathcal Q(h_l^{(i)} \mid v^{(i)};\phi) \\ & = \sum_{h_1^{(i)}} \mathcal Q(h_1^{(i)} \mid v^{(i)};\phi) \cdot \left[v_1^{(i)} \cdot \mathcal W_{11} \cdot h_1^{(i)}\right] \cdot \underbrace{\sum_{h_2^{(i)}}\mathcal Q(h_2^{(i)} \mid v^{(i)};\phi)}_{=1} \cdots \underbrace{\sum_{h_{\mathcal P}^{(i)}}\mathcal Q(h_{\mathcal P}^{(i)} \mid v^{(i)};\phi)}_{=1} \\ & = \sum_{h_1^{(i)}} \mathcal Q(h_1^{(i)} \mid v^{(i)};\phi) \cdot \left[v_1^{(i)} \cdot \mathcal W_{11} \cdot h_1^{(i)}\right] \end{aligned}$
由于 $h_1^{(i)}$ 同样也是服从伯努利分布，继续将上式化简：
$\begin{aligned} \mathcal Q(h_1^{(i)} = 1 \mid v^{(i)};\phi) \cdot \left[v_1^{(i)} \cdot \mathcal W_{11} \cdot 1\right] + 0 = \phi_1 \cdot v_1^{(i)} \cdot \mathcal W_{11} \end{aligned}$
其他项的处理方式均相同。至此， $\Lambda_1$ 可化简为：
一共包含 $\mathcal D \times \mathcal P$ 项，均要进行还原。
$\Lambda_1 = \sum_{i=1}^{\mathcal D}\sum_{l=1}^{\mathcal P} \phi_l \cdot v_i^{(i)} \cdot \mathcal W_{il}$
对 $\Lambda_2$ 进行化简：
关于 $\Lambda_2$ 的化简思路和 $\Lambda_1$ 是完全相同的，只不过更加复杂一些。因为包含 $2$ 个 $h$ 项。

Λ2=21h(i)∑l=1∏PQ(hl(i)∣v(i);ϕ)⋅j=1∑Pl=1∑Phj(i)⋅Jil⋅hl(i)
第一种情况： $\neq l \Rightarrow\mathcal J_{il}$ 不在 $\mathcal J$ 的对角线上。以 $h_1^{(i)} \mathcal J_{12} \cdot h_2^{(i)}$ 为例：
$\begin{aligned} & \quad \frac{1}{2} \sum_{h^{(i)}}\prod_{l=1}^{\mathcal P} \mathcal Q(h_l^{(i)} \mid v^{(i)};\phi) \cdot \left[h_1^{(i)} \cdot \mathcal J_{12} \cdot h_2^{(i)}\right] \\ & = \frac{1}{2} \sum_{h_1^{(i)}} \sum_{h_2^{(i)}}\mathcal Q(h_1^{(i)} \mid v^{(i)};\phi)\cdot \mathcal Q(h_2^{(i)} \mid v^{(i)};\phi) \cdot \left[h_1^{(i)} \cdot \mathcal J_{12} \cdot h_2^{(i)}\right] \cdot \underbrace{\sum_{h_3^{(i)},\cdots,h_{\mathcal P}^{(i)}} \prod_{l = 3}^{\mathcal P} \mathcal Q(h_l^{(i)} \mid v^{(i)};\phi)}_{=1} \\ & = \frac{1}{2} \sum_{h_1^{(i)}} \sum_{h_2^{(i)}}\mathcal Q(h_1^{(i)} \mid v^{(i)};\phi)\cdot \mathcal Q(h_2^{(i)} \mid v^{(i)};\phi) \cdot \left[h_1^{(i)} \cdot \mathcal J_{12} \cdot h_2^{(i)}\right] \end{aligned}$
此时，关于 $h_1^{(i)},h_2^{(i)}$ 的取值一共划分为四种情况：
- $h_1^{(i)} = 0,h_2^{(i)} = 0$
- $h_1^{(i)} = 1,h_2^{(i)} = 0$
- $h_1^{(i)} = 0,h_2^{(i)} = 1$
- $h_1^{(i)} = 1,h_2^{(i)} = 1$
但是，实际上只有 $h_1^{(i)} = 1,h_2^{(i)} = 1$ 才有结果，其余结果均为0。因此 $h_1^{(i)} \mathcal J_{12} \cdot h_2^{(i)}$ 对应的结果为：
$\frac{1}{2} \cdot \mathcal Q(h_1^{(i)}=1 \mid v^{(i)};\phi)\cdot \mathcal Q(h_2^{(i)}=1 \mid v^{(i)};\phi) \cdot \left[1 \cdot \mathcal J_{12} \cdot 1\right] = \frac{1}{2} \phi_1 \cdot \mathcal J_{12} \cdot \phi_2$
关于第一种情况的特殊性：由于参数矩阵 $\mathcal J$ 本身是实对称矩阵，同样有：
这意味着 $h_1^{(i)} \mathcal J_{12} \cdot h_2^{(i)}$ 和 $h_2^{(i)} \mathcal J_{21} \cdot h_1^{(i)}$ 的结果是相同的。
$\frac{1}{2} \phi_1 \cdot \mathcal J_{12} \cdot \phi_2 = \frac{1}{2} \phi_2 \cdot \mathcal J_{21} \cdot \phi_1$
第二种情况： $\Rightarrow \mathcal J_{il}$ 在 $\mathcal J$ 的对角线上。以 $h_1^{(i)} \mathcal J_{11} \cdot h_1^{(i)}$ 为例：
不同于第一种情况，这里只能积分一个 -> $\sum_{h_1^{(i)}}$

21h(i)∑l=1∏PQ(hl(i)∣v(i);ϕ)⋅[h1(i)⋅J11⋅h1(i)]=21h1(i)∑Q(h1(i)∣v(i);ϕ)⋅[h1(i)⋅J11⋅h1(i)]⋅=1 h2(i),⋯,hP(i)∑l=2∏PQ(hl(i)∣v(i);ϕ)=21h1(i)∑Q(h1(i)∣v(i);ϕ)⋅[h1(i)⋅J11⋅h1(i)]
和第一种情况相似，但只有两种选择： $h_1^{(i)} = 1;h_1^{(i)} = 0$ 。最终结果有：
由于 $\mathcal J_{11}$ 是 $\mathcal J$ 对角线上元素，等于0，因此第二种情况全部是0。是0的原因在于玻尔兹曼机某个隐变量自己不会和自己相连接。详情见：玻尔兹曼机——基本介绍一节。
$\frac{1}{2}\mathcal Q(h_1^{(i)}=1 \mid v^{(i)};\phi)\cdot \left[1 \cdot \mathcal J_{11} \cdot 1\right] = \frac{1}{2} \phi_1 \cdot \mathcal J_{11} = 0$
至此，关于 $\Lambda_2$ 中的 $\mathcal P \times \mathcal P$ 项，可以进行如下表示：
$\Lambda_2 = \sum_{j=1}^{\mathcal P}\sum_{l\neq j}^{\mathcal P} \phi_j \cdot \phi_l \cdot \mathcal J_{il}$
关于该描述，作出如下解释(个人见解)：
这是视频中关于第二部分 $\Lambda_2$ 的表示。但这种表示不够精准。因为 $\sum_{j=1}^{\mathcal P}\sum_{l\neq j}^{\mathcal P}$ 对应的是 $\mathcal J$ 对角线之外的其他项，在这里应该将 $\frac{1}{2}$ 填上；如果描述的是 $\mathcal J$ ‘除去对角线元素’的上/下三角阵，这个 $\frac{1}{2}$ 可以不加。为了文章的完整性，这里直接使用视频中的符号。有不同意见的小伙伴欢迎评论区一起讨论。

由于正文字数超了，后续求解过程详见机器学习笔记之玻尔兹曼机——基于平均场推断梯度求解(续)

文章知识点与官方知识档案匹配，可进一步学习相关知识

算法技能树首页概览50552 人正在系统学习中

机器学习笔记之玻尔兹曼机(三)梯度求解(基于平均场理论的变分推断)

机器学习笔记之玻尔兹曼机——基于平均场推断梯度求解

引言

回顾：玻尔兹曼机模型参数梯度求解困难与MCMC方法的处理方式

变分推断方法处理玻尔兹曼机对数似然梯度

评论记录：