信息论
熵 Entropy
熵衡量的是一个概率分布中的不确定性。如果一个事件发生的可能性非常分散,熵就高;如果几乎确定会发生某事,熵就低。
对于离散随机变量 \(X\),其概率分布为 \(P(X)\),熵 \(H(P)\) 定义为:
如果对数底数为 \(2\),单位是 比特 (bit) ;如果底数为 \(e\),单位是 纳特 (nat) 。\(1 \text{ nat} = \frac{1}{\ln 2} \approx 1.44 \text{ bits}\)。
信息量
信息量 (也叫自信息)衡量的是观察到某个特定事件 \(x\) 时所感到的“意外”程度。
如果 \(P(x) = 1\)(必然事件),则 \(I(x) = 0\)。你早就知道了,所以没有新信息。如果 \(P(x) \to 0\)(极罕见事件),则 \(I(x) \to \infty\)。一旦发生,你会感到极其“惊异”,获取的信息量巨大。
熵其实就是信息量的 数学期望 。
交叉熵
在机器学习中,我们通常不知道真实的概率分布 \(P\),而是通过模型得到一个预测分布 \(Q\)。交叉熵衡量的是:当我们用错误的分布 \(Q\) 来解码来自真实分布 \(P\) 的数据时,平均需要的“惊异”程度。
当且仅当 \(Q = P\) 时,交叉熵取得最小值,此时 \(H(P, Q) = H(P)\)。
在分类任务中:
- \(P\) 是真实标签(通常是 One-hot 向量,例如 \([0, 1, 0]\))。
- \(Q\) 是模型 Softmax 输出的预测概率(例如 \([0.1, 0.8, 0.1]\))。
- 最小化交叉熵,本质上就是让模型的预测分布 \(Q\) 尽可能靠近真实分布 \(P\)。
KL散度(相对熵)
KL 散度衡量两个分布之间的距离:
由于真实分布 \(P\) 的熵 \(H(P)\) 是固定的,因此:
最小化交叉熵 \(H(P, Q)\) \(\iff\) 最小化 KL 散度 \(D_{KL}(P \| Q)\)****
条件熵 (Conditional Entropy)
条件熵 \(H(X|Y)\) 衡量在已知随机变量 \(Y\) 的条件下,\(X\) 的剩余不确定性:
性质:
- \(H(X|Y) \geq 0\),等号成立当且仅当 \(X\) 是 \(Y\) 的确定性函数
- \(H(X|Y) \leq H(X)\),已知额外信息不会增加不确定性("信息不会有害")
- 当 \(X\) 与 \(Y\) 独立时,\(H(X|Y) = H(X)\)
联合熵 (Joint Entropy)
联合熵 \(H(X, Y)\) 衡量两个随机变量联合分布的总不确定性:
链式法则:
更一般地,对于 \(n\) 个随机变量:
互信息 (Mutual Information)
互信息 \(I(X; Y)\) 衡量两个随机变量之间共享的信息量——即知道其中一个后,另一个不确定性减少了多少。
等价定义:
性质:
- \(I(X; Y) \geq 0\),等号成立当且仅当 \(X\) 与 \(Y\) 独立
- \(I(X; Y) = I(Y; X)\)(对称性)
- \(I(X; X) = H(X)\)(自信息等于熵)
与各种熵的关系
互信息可以通过多种方式表达:
这个公式直观地揭示了:联合熵 = 各自熵之和 - 重叠部分(互信息)。
各种熵之间的关系(Venn 图)
下面用集合关系直观展示各种信息量之间的关系:
+---------------------------+
| H(X, Y) |
| |
| +-------+ +-------+ |
| | | | | |
| | H(X|Y)|I(X;Y)|H(Y|X)| |
| | | | | |
| +-------+ +-------+ |
| |<-- H(X) -->| |
| |<-- H(Y) -->||
+---------------------------+
核心等式总结:
| 关系 | 公式 |
|---|---|
| 联合熵分解 | \(H(X,Y) = H(X) + H(Y\|X) = H(Y) + H(X\|Y)\) |
| 互信息定义 | \(I(X;Y) = H(X) - H(X\|Y) = H(Y) - H(Y\|X)\) |
| Venn 图等式 | \(H(X,Y) = H(X) + H(Y) - I(X;Y)\) |
| 上界 | \(I(X;Y) \leq \min\{H(X), H(Y)\}\) |
信息增益 (Information Gain)
信息增益是互信息在决策树学习中的直接应用。在选择特征进行分裂时,信息增益衡量某个特征 \(A\) 对数据集 \(D\) 分类不确定性的减少量:
其中 \(D_v\) 是特征 \(A\) 取值为 \(v\) 时的子集。
在决策树中的应用:
- ID3 算法:直接使用信息增益选择分裂特征。缺点是偏向取值较多的特征。
- C4.5 算法:使用信息增益比(Information Gain Ratio)修正偏差:
其中 \(H_A(D)\) 称为特征 \(A\) 的固有值(intrinsic value)。
信息瓶颈 (Information Bottleneck)
核心思想
信息瓶颈理论(Tishby et al., 1999)研究的是:如何找到输入 \(X\) 的一个压缩表示 \(T\),使得 \(T\) 在尽可能压缩 \(X\) 的同时,尽可能多地保留关于目标 \(Y\) 的信息。
这是一个 压缩与预测之间的 trade-off。
IB-Lagrangian
信息瓶颈的优化目标写为 Lagrangian 形式:
其中:
- \(I(X; T)\):表示 \(T\) 从 \(X\) 中保留了多少信息(希望最小化——压缩)
- \(I(T; Y)\):表示 \(T\) 关于目标 \(Y\) 包含了多少信息(希望最大化——预测)
- \(\beta > 0\):Lagrange 乘子,控制压缩与预测之间的平衡
\(\beta \to 0\) 时极度压缩(\(T\) 几乎不含信息),\(\beta \to \infty\) 时几乎不压缩(\(T \approx X\))。
与深度学习的联系
Shwartz-Ziv & Tishby (2017) 提出深度神经网络的训练过程可以用信息瓶颈理论来理解:
- 拟合阶段(Fitting phase):\(I(T; Y)\) 快速增加,网络学习有用特征
- 压缩阶段(Compression phase):\(I(X; T)\) 逐渐减少,网络丢弃与 \(Y\) 无关的噪声
虽然这一观点仍有争议(特别是关于压缩阶段是否普遍存在),但它为理解深度学习的泛化提供了信息论视角。
最大熵原理 (Maximum Entropy Principle)
最大熵原理(Jaynes, 1957)指出:在满足已知约束的所有概率分布中,应选择熵最大的那个分布。
直觉
熵最大的分布是最"保守"的选择——它不引入任何超出已知约束的额外假设,是对无知的最诚实表达。
数学形式
给定约束 \(E[f_k(X)] = \alpha_k\)(\(k = 1, \ldots, K\)),最大熵分布通过求解以下优化问题得到:
利用 Lagrange 乘子法,解具有指数族分布的形式:
其中 \(Z\) 为归一化常数(配分函数),\(\lambda_k\) 为 Lagrange 乘子。
常见实例
| 约束条件 | 最大熵分布 |
|---|---|
| 无约束(有限离散) | 均匀分布 |
| 给定均值和方差 | 高斯分布 |
| 给定均值(非负) | 指数分布 |
在机器学习中的应用
- 最大熵分类器(MaxEnt)本质是 softmax 回归 / 逻辑回归
- 条件随机场(CRF) 可以看作条件最大熵模型
- 语言模型:最大熵语言模型通过 n-gram 特征约束来建模词分布