概率图模型与概率推断

概率图模型（Probabilistic Graphical Models, PGM）是将概率论与图论结合的强大框架，用图结构来表示随机变量之间的依赖关系，从而实现高效的概率推断与学习。

学习路线： 概率基础 → 贝叶斯定理 → 图模型分类 → EM算法 → 变分推断 → 现代应用

派系视角：HMM 完整推导（前向后向 / Viterbi / Baum-Welch）与 LDA 完整 Gibbs sampling 见 The Master Algorithm — 图模型与隐马尔可夫。

概率图模型概述

有向模型 vs 无向模型

概率图模型按照图的类型分为两大类：

维度	有向图模型（贝叶斯网络）	无向图模型（马尔可夫随机场）
图类型	有向无环图（DAG）	无向图
参数化	条件概率分布 \(P(X_i \mid \text{Pa}(X_i))\)	势函数（Potential Function）
联合分布	\(P(\mathbf{X}) = \prod_i P(X_i \mid \text{Pa}(X_i))\)	\(P(\mathbf{X}) = \frac{1}{Z}\prod_c \psi_c(\mathbf{X}_c)\)
独立性	d-分离准则	全局/局部/成对马尔可夫性
典型应用	因果推理、朴素贝叶斯、LDA	图像分割（CRF）、物理建模
归一化	自动满足（条件概率之和为1）	需要计算配分函数 \(Z\)（通常很难）

有向模型（贝叶斯网络） 的联合概率分解：

\[ P(X_1, X_2, \dots, X_n) = \prod_{i=1}^{n} P(X_i \mid \text{Pa}(X_i)) \]

其中 \(\text{Pa}(X_i)\) 表示节点 \(X_i\) 的父节点集合。

无向模型（马尔可夫随机场） 的联合概率分解：

\[ P(\mathbf{X}) = \frac{1}{Z} \prod_{c \in \mathcal{C}} \psi_c(\mathbf{X}_c), \quad Z = \sum_{\mathbf{X}} \prod_{c \in \mathcal{C}} \psi_c(\mathbf{X}_c) \]

其中 \(\mathcal{C}\) 是图的极大团（clique）集合，\(\psi_c\) 是非负的势函数，\(Z\) 是配分函数。

判别模型 vs 生成模型

维度	生成模型	判别模型
建模目标	联合分布 \(P(X, Y)\) 或 \(P(X \mid Y)P(Y)\)	条件分布 \(P(Y \mid X)\)
推断方式	通过贝叶斯定理得到后验	直接学习决策边界
优点	可生成新样本、处理缺失数据	通常分类精度更高
缺点	需要更强的假设、计算开销大	无法生成数据
典型算法	朴素贝叶斯、GMM、HMM、VAE	逻辑回归、SVM、CRF、神经网络

EM 算法

期望最大化（Expectation-Maximization, EM）算法是含有隐变量的概率模型中最重要的参数估计方法。

问题设定

给定观测数据 \(\mathbf{X}\)、隐变量 \(\mathbf{Z}\)、模型参数 \(\theta\)，目标是最大化不完全数据的对数似然：

\[ \ell(\theta) = \log P(\mathbf{X} \mid \theta) = \log \sum_{\mathbf{Z}} P(\mathbf{X}, \mathbf{Z} \mid \theta) \]

由于对隐变量的求和在对数内部，直接优化通常非常困难。

E步与M步

EM 算法通过迭代两个步骤来逐步提升似然：

E步（Expectation Step）：固定参数 \(\theta^{(t)}\)，计算隐变量的后验分布：

\[ Q(\mathbf{Z}) = P(\mathbf{Z} \mid \mathbf{X}, \theta^{(t)}) \]

并计算期望的完全数据对数似然（Q函数）：

\[ Q(\theta \mid \theta^{(t)}) = \mathbb{E}_{\mathbf{Z} \sim P(\mathbf{Z} \mid \mathbf{X}, \theta^{(t)})} \left[ \log P(\mathbf{X}, \mathbf{Z} \mid \theta) \right] \]

M步（Maximization Step）：最大化Q函数求新参数：

\[ \theta^{(t+1)} = \arg\max_{\theta} \; Q(\theta \mid \theta^{(t)}) \]

ELBO 与收敛性

EM 算法的理论基础是证据下界（Evidence Lower Bound, ELBO）。对于任意分布 \(q(\mathbf{Z})\)：

\[ \log P(\mathbf{X} \mid \theta) = \underbrace{\mathbb{E}_{q}[\log P(\mathbf{X}, \mathbf{Z} \mid \theta)] - \mathbb{E}_{q}[\log q(\mathbf{Z})]}_{\text{ELBO}(q, \theta)} + \text{KL}(q(\mathbf{Z}) \| P(\mathbf{Z} \mid \mathbf{X}, \theta)) \]

由于 KL 散度非负，ELBO 始终是对数似然的下界：

\[ \log P(\mathbf{X} \mid \theta) \geq \text{ELBO}(q, \theta) \]

E步：固定 \(\theta\)，令 \(q(\mathbf{Z}) = P(\mathbf{Z} \mid \mathbf{X}, \theta)\)，使 KL 散度为零，ELBO 紧贴似然
M步：固定 \(q\)，最大化 ELBO 关于 \(\theta\)

收敛性保证：每次迭代都不会降低对数似然，即 \(\ell(\theta^{(t+1)}) \geq \ell(\theta^{(t)})\)。但 EM 只保证收敛到局部最优，不保证全局最优。

EM 与变分推断的关系

EM 可以看作变分推断的特例：

EM 的 E步精确计算后验 \(P(\mathbf{Z} \mid \mathbf{X}, \theta)\)
变分推断（VI）在后验不可解析时，用参数化的 \(q_\phi(\mathbf{Z})\) 来近似后验
当精确后验可计算时，VI 退化为 EM

朴素贝叶斯

条件独立假设

朴素贝叶斯是最简单也最经典的生成式分类器。其核心假设是：给定类别标签 \(Y\)，所有特征 \(X_1, X_2, \dots, X_d\) 彼此条件独立：

\[ P(X_1, X_2, \dots, X_d \mid Y) = \prod_{j=1}^{d} P(X_j \mid Y) \]

分类决策基于贝叶斯定理：

\[ P(Y = c \mid \mathbf{X}) = \frac{P(Y = c) \prod_{j=1}^{d} P(X_j \mid Y = c)}{\sum_{c'} P(Y = c') \prod_{j=1}^{d} P(X_j \mid Y = c')} \]

预测时取后验概率最大的类别：\(\hat{y} = \arg\max_c P(Y = c) \prod_j P(X_j \mid Y = c)\)。

拉普拉斯平滑

在实际应用中，如果某个特征值在训练集中从未出现过，概率估计为零会导致整个乘积为零。拉普拉斯平滑通过给每个计数加上一个小常数来解决：

\[ \hat{P}(X_j = x \mid Y = c) = \frac{\text{count}(X_j = x, Y = c) + \alpha}{\text{count}(Y = c) + \alpha \cdot |V_j|} \]

其中 \(\alpha\) 是平滑参数（\(\alpha = 1\) 即拉普拉斯平滑），\(|V_j|\) 是特征 \(X_j\) 的取值个数。

文本分类应用

朴素贝叶斯在文本分类（垃圾邮件过滤、情感分析）中表现优异：

变体	特征表示	\(P(X_j \mid Y)\) 的分布	适用场景
多项式朴素贝叶斯	词频 / TF-IDF	多项式分布	文本分类（最常用）
伯努利朴素贝叶斯	词是否出现（0/1）	伯努利分布	短文本、二值特征
高斯朴素贝叶斯	连续值	高斯分布	连续特征的分类

高斯混合模型

GMM 定义

高斯混合模型（Gaussian Mixture Model, GMM）假设数据由 \(K\) 个高斯分布的混合生成：

\[ P(\mathbf{x}) = \sum_{k=1}^{K} \pi_k \; \mathcal{N}(\mathbf{x} \mid \boldsymbol{\mu}_k, \boldsymbol{\Sigma}_k) \]

其中 \(\pi_k\) 是混合权重（\(\sum_k \pi_k = 1\)），\(\boldsymbol{\mu}_k\) 和 \(\boldsymbol{\Sigma}_k\) 分别是第 \(k\) 个分量的均值和协方差矩阵。

与 K-Means 的关系：K-Means 可以看作 GMM 的特例，当所有高斯分量的协方差矩阵为 \(\sigma^2 I\)（各向同性）且 \(\sigma \to 0\) 时，GMM 的软分配退化为 K-Means 的硬分配。更多聚类内容可参考无监督学习笔记。

GMM 的 EM 推导

E步：计算每个数据点属于第 \(k\) 个分量的责任度（responsibility）：

\[ \gamma_{ik} = \frac{\pi_k \; \mathcal{N}(\mathbf{x}_i \mid \boldsymbol{\mu}_k, \boldsymbol{\Sigma}_k)}{\sum_{j=1}^{K} \pi_j \; \mathcal{N}(\mathbf{x}_i \mid \boldsymbol{\mu}_j, \boldsymbol{\Sigma}_j)} \]

M步：利用责任度更新参数：

\[ \boldsymbol{\mu}_k^{\text{new}} = \frac{\sum_i \gamma_{ik} \mathbf{x}_i}{\sum_i \gamma_{ik}}, \quad \boldsymbol{\Sigma}_k^{\text{new}} = \frac{\sum_i \gamma_{ik} (\mathbf{x}_i - \boldsymbol{\mu}_k^{\text{new}})(\mathbf{x}_i - \boldsymbol{\mu}_k^{\text{new}})^T}{\sum_i \gamma_{ik}}, \quad \pi_k^{\text{new}} = \frac{\sum_i \gamma_{ik}}{N} \]

变分推断入门

动机

当隐变量的后验分布 \(P(\mathbf{Z} \mid \mathbf{X})\) 无法解析计算时（如在复杂贝叶斯模型中），我们需要近似推断方法。变分推断（Variational Inference, VI）将推断问题转化为优化问题。

ELBO 推导

引入变分分布 \(q(\mathbf{Z})\) 来近似真实后验 \(P(\mathbf{Z} \mid \mathbf{X})\)，目标是最小化两者之间的 KL 散度：

\[ \text{KL}(q(\mathbf{Z}) \| P(\mathbf{Z} \mid \mathbf{X})) = \mathbb{E}_q\left[\log \frac{q(\mathbf{Z})}{P(\mathbf{Z} \mid \mathbf{X})}\right] \]

展开可得：

\[ \text{KL}(q \| p) = -\underbrace{\left(\mathbb{E}_q[\log P(\mathbf{X}, \mathbf{Z})] - \mathbb{E}_q[\log q(\mathbf{Z})]\right)}_{\text{ELBO}} + \log P(\mathbf{X}) \]

由于 \(\log P(\mathbf{X})\) 是常数，最小化 KL 等价于最大化 ELBO：

\[ \text{ELBO}(q) = \mathbb{E}_q[\log P(\mathbf{X}, \mathbf{Z})] + H[q] \]

其中 \(H[q] = -\mathbb{E}_q[\log q(\mathbf{Z})]\) 是 \(q\) 的熵。

平均场近似

平均场变分推断（Mean-Field VI）假设变分分布可以分解为各隐变量的独立乘积：

\[ q(\mathbf{Z}) = \prod_{i=1}^{M} q_i(Z_i) \]

在此假设下，每个因子的最优更新为：

\[ \log q_j^*(Z_j) = \mathbb{E}_{q_{-j}}[\log P(\mathbf{X}, \mathbf{Z})] + \text{const} \]

其中 \(q_{-j}\) 表示除 \(q_j\) 以外所有因子的分布。这提供了一个坐标上升式的迭代优化过程。

推断方法	精度	计算效率	适用规模
精确推断	精确	指数级复杂度	小规模
MCMC	渐近精确	慢，难以判断收敛	中等规模
变分推断	近似	快，可扩展	大规模
EM	点估计	中等	中等规模

概率图模型在 ML Pipeline 中的位置

概率图模型并非孤立存在，它与现代机器学习流程紧密结合：

数据建模阶段：使用 GMM 进行密度估计、用 HMM 建模时序数据
特征工程阶段：LDA 等主题模型提取文档的隐含特征
不确定性量化：贝叶斯方法为预测提供置信区间
因果推断：贝叶斯网络用于因果发现与干预分析
生成模型：VAE 将变分推断与深度学习结合，用于图像/文本生成

与深度学习的融合：

VAE（变分自编码器）：将变分推断的 ELBO 框架与神经网络编码器/解码器结合
深度贝叶斯网络：用神经网络参数化条件分布
归一化流（Normalizing Flows）：通过可逆变换构造灵活的变分分布

概率图模型为我们提供了建模不确定性和结构化先验知识的原则性框架，与深度学习的表示能力结合后，成为现代 AI 的重要基石。