概率论

基本概念

概率空间 (Probability Space)

核心定义 ：用于精确描述随机试验数学结构的 三元组 $(\Omega, \mathcal{F}, P)$**** 。

样本空间 ($\Omega$) ：试验所有可能结果的集合。
事件空间 ($\mathcal{F}$) ：所有可能事件（样本空间的子集）构成的集合。
概率函数 ($P$) ：将事件映射到 $[0, 1]$ 实数的函数。

概率公理（概率法则） ：

\[ P(A) \in [0, 1], \quad \forall A \in \mathcal{F} \]

\[ P(\Omega) = 1 \]

互斥事件加法法则 ：若 $\alpha \cap \beta = \emptyset$，则：

\[ P(\alpha \cup \beta) = P(\alpha) + P(\beta) \]

。

随机变量 (Random Variable)

核心定义 ：将样本空间中的试验结果映射到实数数值的 映射函数 。

表示法 ：$P(X=a)$ 表示随机变量 $X$ 取值为 $a$ 的概率。
值域：记作 $Val(X)$。
类型：
离散型 ：取值集合有限或可列。
连续型 ：取值于连续区间。

概率分布类型

核心定义 ：描述随机变量取不同值可能性的数学表达。

概率分布 $P(X)$* ：描述单个随机变量 *$X$ 取值的可能性。
联合分布 $P(X, Y)$**** ：描述多个随机变量同时取特定值的可能性。
边缘分布 $P(X)$**** ：从联合分布中通过对其他变量求和（或积分）得到的单一变量分布。
条件分布 $P(X|Y)$* ：在已知变量 *$Y$ 发生的条件下，变量 $X$ 发生的概率分布。

条件概率定义式 ：

\[ P(X=a | Y=b) = \frac{P(X=a, Y=b)}{P(Y=b)} \]

。

伯努利分布

伯努利分布（Bernoulli Distribution）是最简单的离散分布，描述只有两种结果的单次随机试验（如抛硬币）。

\[ P(X=k) = p^k (1-p)^{1-k}, \quad k \in \{0, 1\} \]

期望：$E[X] = p$
方差：$\text{Var}(X) = p(1-p)$

进行 $n$ 次独立伯努利试验，成功次数服从二项分布（Binomial Distribution）：$X \sim B(n, p)$。

高斯分布

高斯分布（Gaussian Distribution），也称正态分布（Normal Distribution），是连续概率分布中最重要的分布。

\[ p(x) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \]

记作 $X \sim \mathcal{N}(\mu, \sigma^2)$，其中 $\mu$ 为均值，$\sigma^2$ 为方差。

标准正态分布：$\mu=0, \sigma=1$ 时，$X \sim \mathcal{N}(0, 1)$。

高斯分布在机器学习中的重要性：

中心极限定理：大量独立随机变量之和近似服从正态分布
最大熵原理：在给定均值和方差的约束下，正态分布是熵最大的连续分布
贝叶斯推断中常用正态分布作为先验

多元高斯分布：$\mathbf{x} \sim \mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\Sigma})$，其中 $\boldsymbol{\Sigma}$ 为协方差矩阵。

\[ p(\mathbf{x}) = \frac{1}{(2\pi)^{d/2}|\boldsymbol{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\mathbf{x}-\boldsymbol{\mu})\right) \]

多项式分布

多项式分布（Multinomial Distribution）是二项分布的推广，描述 $n$ 次独立试验中 $k$ 种结果各出现多少次。

\[ P(X_1=n_1, \ldots, X_k=n_k) = \frac{n!}{n_1! \cdots n_k!} p_1^{n_1} \cdots p_k^{n_k} \]

其中 $\sum_{i=1}^k n_i = n$，$\sum_{i=1}^k p_i = 1$。

在NLP中，多项式分布常用于建模词频（Bag-of-Words 模型）。当 $n=1$ 时退化为类别分布（Categorical Distribution），即 Softmax 输出的概率分布。

连接概率的核心法则

核心定义 ：建立边缘、联合与条件概率之间转换关系的计算逻辑。

加法法则 (Sum Rule)

判定逻辑 ：用于从联合分布推导边缘分布（消除干扰变量）。
离散形式 ：

\[ P(X) = \sum_{y \in Val(Y)} P(X, Y) \]

连续形式 ：

\[ P(X) = \int_{y \in Val(Y)} P(X, Y) dy \]

乘法法则 / 链式法则 (Chain Rule)

判定逻辑 ：用于将联合分布分解为边缘分布与条件分布的乘积。
核心公式 ：

\[ P(X, Y) = P(X)P(Y|X) \]

推广公式 ：

\[ P(X_1, \dots, X_n) = \prod_{i=1}^n P(X_i | X_1, \dots, X_{i-1}) \]

贝叶斯定理 (Bayes' Theorem)

核心定义 ：描述观测到新数据后，先验概率如何转化为后验概率。
核心公式 ：

\[ P(X|Y) = \frac{P(Y|X)P(X)}{P(Y)} \]

。

全概率公式 (Law of Total Probability)

核心定义 ：通过完备事件组的条件概率加权平均，计算目标事件的总概率。

成立条件 ：事件组 $B_1, B_2, \dots, B_n$ 两两互斥且其并集为全集 $\Omega$。
核心公式 ：

\[ P(A) = \sum_{i=1}^n P(B_i)P(A|B_i) \]

。

概率分布

离散分布：概率质量函数 (PMF)

核心概念 ：离散分布通过直接为随机变量的每个可能取值分配具体的概率“质量”来定义。

定义： 概率质量函数 (Probability Mass Function, PMF) ，记为 $P(X=x)$。
成立条件 ：

非负性：$P(X=x_i) \ge 0$
归一化：所有可能取值的概率之和必须等于 1。

计算公式 ：

\[ \sum_{i} P(X=x_i) = 1 \]

示例（抛硬币） ：

\[ P(X=x) = 0.5, \quad x \in \{0, 1\} \]

。

连续分布：概率密度函数 (PDF)

核心概念 ：连续分布无法为单个点分配概率（单点概率为 0），而是通过描述概率在区间内的“密度”来定义。

定义： 概率密度函数 (Probability Density Function, PDF) ，记为 $f(x)$。
成立条件 ：

非负性：$f(x) \ge 0$
归一化：全值域上的积分必须等于 1。

计算公式（区间概率） ：

\[ P(a \le X \le b) = \int_{a}^{b} f(x) dx \]

联合分布扩展 ：

\[ P(a \le X \le b, c \le Y \le d) = \int_{a}^{b} \int_{c}^{d} f(x, y) dx dy \]

。

累积分布函数 (CDF)

核心概念 ：描述随机变量落在小于或等于某一特定值 $x$ 的范围内的总概率。

定义： 累积分布函数 (Cumulative Distribution Function, CDF) ，记为 $F(x)$。
PDF 与 CDF 的转换关系 ：

\[ F(x) = P(X \le x) = \int_{-\infty}^{x} f(u) du \]

反向推导 ：

\[ f(x) = \frac{d}{dx} F(x) \]

期望/方差

期望 (Expectation)

核心定义 ：反映随机变量平均取值大小的一阶矩，物理意义为概率分布的“重心”。

基本定义 ：

\[ E(X) = \sum_{i} p_i x_i \quad \text{或} \quad \int x f(x) dx \]

线性期望（通式） ：无论变量是否独立，和的期望等于期望的和。

\[ E\left(\sum_{i=1}^{n} X_i\right) = \sum_{i=1}^{n} E(X_i) \]

独立变量乘积 ：若 $X \perp Y$，则：

\[ E(XY) = E(X)E(Y) \]

.

方差 (Variance)

核心定义 ：衡量随机变量与其期望值的偏离程度，即分布的离散程度。

基本定义 ：

\[ Var(X) = E\left[(X - E(X))^2\right] \]

机器学习常用计算公式 ：

\[ Var(X) = E(X^2) - [E(X)]^2 \]

线性变换性质 ：

\[ Var(aX + b) = a^2 Var(X) \]

独立变量加法 ：若 $X \perp Y$，则：

\[ Var(X \pm Y) = Var(X) + Var(Y) \]

.

协方差 (Covariance)

核心定义 ：度量两个随机变量之间的线性相关方向与强度。

核心公式 ：

\[ Cov(X, Y) = E[(X - E(X))(Y - E(Y))] \]

特殊情况 ：当 $X=Y$ 时，$Cov(X, X) = Var(X)$。

独立性

二元独立性 (Binary Independence)

核心概念： 描述两个事件之间是否存在因果或统计关联的最基础准则。

核心定义： $$ P(A \cap B) = P(A)P(B) $$
条件概率等价判定： $$ P(A|B) = P(A) \quad (\text{前提 } P(B) > 0) $$
性质： 若 $A$ 与 $B$ 独立，则其对应的对立事件组合（如 $\bar{A}$ 与 $B$）亦保持独立。

两两独立 (Pairwise Independence)

核心概念： 一组事件中，任意两个事件都满足独立性，但整体未必联动。

成立条件： 对于事件集 $\{A_1, A_2, \dots, A_n\}$，满足： $$ P(A_i A_j) = P(A_i)P(A_j) \quad (\forall i \neq j) $$
局限性： 无法推导出三个或更多事件同时发生时的概率乘法关系。

相互独立 (Mutual Independence)

核心概念： 最严格的独立性，要求事件组内任何子集的发生都不影响其余事件。

核心定义： 对 $n$ 个事件中任意 $k$ 个事件 ($2 \le k \le n$)，均满足： $$ P(A_{i_1} A_{i_2} \dots A_{i_k}) = P(A_{i_1})P(A_{i_2}) \dots P(A_{i_k}) $$
推导结论： 相互独立 $\implies$ 两两独立（反之不成立）。

随机变量独立性 (Independence of Random Variables)

核心概念： 将事件独立性扩展至连续或离散取值的分布函数。

核心定义（分布函数）： $$ F(x, y) = F_X(x)F_Y(y) $$
核心定义（密度函数）： $$ f(x, y) = f_X(x)f_Y(y) $$

条件独立性

在给定第三方观测变量 $C$ 的情况下，事件 $A$ 和 $B$ 变得互不相关。

核心定义： $$ P(AB|C) = P(A|C)P(B|C) $$
等价表达： $P(A|BC) = P(A|C)$

。

贝叶斯定理

条件概率 (Conditional Probability)

在已知事件 $B$ 发生的先决条件下，事件 $A$ 发生的可能性。

成立条件： $P(B) > 0$
计算公式： $$ P(A|B) = \frac{P(AB)}{P(B)} $$
乘法公式： $P(AB) = P(B)P(A|B) = P(A)P(B|A)$

贝叶斯定理

描述在观测到新证据后，如何更新对某一假设的先验认知（由果溯因）。

核心公式： $$ P(A_i|B) = \frac{P(B|A_i)P(A_i)}{\sum_{j=1}^{n} P(B|A_j)P(A_j)} $$
术语对应： $P(A_i)$ 为 先验概率 ，$P(A_i|B)$ 为 后验概率 ，$P(B|A_i)$ 为 似然度 。

大数定律

描述样本均值在试验次数趋于无穷大时，收敛于期望值的统计规律。

切比雪夫大数定律： 均方差存在的独立变量序列，其算术平均值依概率收敛于期望。 $$ \lim_{n \to \infty} P\left( \left| \frac{1}{n}\sum_{i=1}^n X_i - \frac{1}{n}\sum_{i=1}^n E(X_i) \right| < \epsilon \right) = 1 $$
伯努利大数定律： 事件发生的频率依概率收敛于概率 $p$。

中心极限定理

大量独立同分布的随机变量之和，其分布趋近于正态分布，无论原分布为何。

独立同分布 (i.i.d.) 情况： 设 $X_1, \dots, X_n$ 独立同分布，均值 $\mu$，方差 $\sigma^2$。
标准化收敛公式： $$ \lim_{n \to \infty} P\left( \frac{\sum_{i=1}^n X_i - n\mu}{\sigma\sqrt{n}} \le x \right) = \Phi(x) $$

多维随机变量

研究多个随机变量在同一样本空间下的累积分布及各自的投影分布。

分布

联合分布 (Joint Distribution)： $F(x, y) = P(X \le x, Y \le y)$
边缘分布 (Marginal Distribution)： 忽略其他变量后的单变量分布。 $$ f_X(x) = \int_{-\infty}^{\infty} f(x, y) dy $$

协方差矩阵

将多维随机变量各维度间的方差与协方差以矩阵形式排列，表征向量的离散程度与相关性。

矩阵定义： 对于随机向量 $\mathbf{X} = [X_1, X_2, \dots, X_n]^T$： $$ \Sigma_{ij} = \text{Cov}(X_i, X_j) = E[(X_i - E[X_i])(X_j - E[X_j])] $$
性质： 协方差矩阵是对称且半正定的。

概率论

基本概念

概率空间 (Probability Space)

随机变量 (Random Variable)

概率分布类型

伯努利分布

高斯分布

多项式分布

连接概率的核心法则

加法法则 (Sum Rule)

乘法法则 / 链式法则 (Chain Rule)

贝叶斯定理 (Bayes' Theorem)

全概率公式 (Law of Total Probability)

概率分布

离散分布：概率质量函数 (PMF)

连续分布：概率密度函数 (PDF)

累积分布函数 (CDF)

期望/方差

期望 (Expectation)

方差 (Variance)

协方差 (Covariance)

独立性

二元独立性 (Binary Independence)

两两独立 (Pairwise Independence)

相互独立 (Mutual Independence)

随机变量独立性 (Independence of Random Variables)

条件独立性

相关系数

贝叶斯定理

条件概率 (Conditional Probability)

贝叶斯定理

大数定律

中心极限定理

多维随机变量

分布

协方差矩阵

评论 #