概率论
基本概念
概率空间 (Probability Space)
核心定义 :用于精确描述随机试验数学结构的 三元组 \((\Omega, \mathcal{F}, P)\)**** 。
- 样本空间 (\(\Omega\)) :试验所有可能结果的集合。
- 事件空间 (\(\mathcal{F}\)) :所有可能事件(样本空间的子集)构成的集合。
- 概率函数 (\(P\)) :将事件映射到 \([0, 1]\) 实数的函数。
概率公理(概率法则) :
互斥事件加法法则 :若 \(\alpha \cap \beta = \emptyset\),则:
。
随机变量 (Random Variable)
核心定义 :将样本空间中的试验结果映射到实数数值的 映射函数 。
- 表示法 :\(P(X=a)\) 表示随机变量 \(X\) 取值为 \(a\) 的概率。
- 值域 :记作 \(Val(X)\)。
- 类型 :
- 离散型 :取值集合有限或可列。
- 连续型 :取值于连续区间。
概率分布类型
核心定义 :描述随机变量取不同值可能性的数学表达。
- 概率分布 \(P(X)\)* :描述单个随机变量 *\(X\) 取值的可能性。
- 联合分布 \(P(X, Y)\)**** :描述多个随机变量同时取特定值的可能性。
- 边缘分布 \(P(X)\)**** :从联合分布中通过对其他变量求和(或积分)得到的单一变量分布。
- 条件分布 \(P(X|Y)\)* :在已知变量 *\(Y\) 发生的条件下,变量 \(X\) 发生的概率分布。
条件概率定义式 :
。
伯努利分布
伯努利分布(Bernoulli Distribution)是最简单的离散分布,描述只有两种结果的单次随机试验(如抛硬币)。
- 期望:\(E[X] = p\)
- 方差:\(\text{Var}(X) = p(1-p)\)
进行 \(n\) 次独立伯努利试验,成功次数服从二项分布(Binomial Distribution):\(X \sim B(n, p)\)。
高斯分布
高斯分布(Gaussian Distribution),也称正态分布(Normal Distribution),是连续概率分布中最重要的分布。
记作 \(X \sim \mathcal{N}(\mu, \sigma^2)\),其中 \(\mu\) 为均值,\(\sigma^2\) 为方差。
标准正态分布:\(\mu=0, \sigma=1\) 时,\(X \sim \mathcal{N}(0, 1)\)。
高斯分布在机器学习中的重要性:
- 中心极限定理:大量独立随机变量之和近似服从正态分布
- 最大熵原理:在给定均值和方差的约束下,正态分布是熵最大的连续分布
- 贝叶斯推断中常用正态分布作为先验
多元高斯分布:\(\mathbf{x} \sim \mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\Sigma})\),其中 \(\boldsymbol{\Sigma}\) 为协方差矩阵。
多项式分布
多项式分布(Multinomial Distribution)是二项分布的推广,描述 \(n\) 次独立试验中 \(k\) 种结果各出现多少次。
其中 \(\sum_{i=1}^k n_i = n\),\(\sum_{i=1}^k p_i = 1\)。
在NLP中,多项式分布常用于建模词频(Bag-of-Words 模型)。当 \(n=1\) 时退化为类别分布(Categorical Distribution),即 Softmax 输出的概率分布。
连接概率的核心法则
核心定义 :建立边缘、联合与条件概率之间转换关系的计算逻辑。
加法法则 (Sum Rule)
- 判定逻辑 :用于从联合分布推导边缘分布(消除干扰变量)。
- 离散形式 :
- 连续形式 :
乘法法则 / 链式法则 (Chain Rule)
- 判定逻辑 :用于将联合分布分解为边缘分布与条件分布的乘积。
- 核心公式 :
- 推广公式 :
贝叶斯定理 (Bayes' Theorem)
- 核心定义 :描述观测到新数据后,先验概率如何转化为后验概率。
- 核心公式 :
。
全概率公式 (Law of Total Probability)
核心定义 :通过完备事件组的条件概率加权平均,计算目标事件的总概率。
- 成立条件 :事件组 \(B_1, B_2, \dots, B_n\) 两两互斥且其并集为全集 \(\Omega\)。
- 核心公式 :
。
概率分布
离散分布:概率质量函数 (PMF)
核心概念 :离散分布通过直接为随机变量的每个可能取值分配具体的概率“质量”来定义。
- 定义 : 概率质量函数 (Probability Mass Function, PMF) ,记为 \(P(X=x)\)。
- 成立条件 :
- 非负性:\(P(X=x_i) \ge 0\)
- 归一化:所有可能取值的概率之和必须等于 1。
- 计算公式 :
- 示例(抛硬币) :
。
连续分布:概率密度函数 (PDF)
核心概念 :连续分布无法为单个点分配概率(单点概率为 0),而是通过描述概率在区间内的“密度”来定义。
- 定义 : 概率密度函数 (Probability Density Function, PDF) ,记为 \(f(x)\)。
- 成立条件 :
- 非负性:\(f(x) \ge 0\)
- 归一化:全值域上的积分必须等于 1。
- 计算公式(区间概率) :
- 联合分布扩展 :
。
累积分布函数 (CDF)
核心概念 :描述随机变量落在小于或等于某一特定值 \(x\) 的范围内的总概率。
- 定义 : 累积分布函数 (Cumulative Distribution Function, CDF) ,记为 \(F(x)\)。
- PDF 与 CDF 的转换关系 :
- 反向推导 :
期望/方差
期望 (Expectation)
核心定义 :反映随机变量平均取值大小的一阶矩,物理意义为概率分布的“重心”。
- 基本定义 :
- 线性期望(通式) :无论变量是否独立,和的期望等于期望的和。
- 独立变量乘积 :若 \(X \perp Y\),则:
.
方差 (Variance)
核心定义 :衡量随机变量与其期望值的偏离程度,即分布的离散程度。
- 基本定义 :
- 机器学习常用计算公式 :
- 线性变换性质 :
- 独立变量加法 :若 \(X \perp Y\),则:
.
协方差 (Covariance)
核心定义 :度量两个随机变量之间的线性相关方向与强度。
- 核心公式 :
- 特殊情况 :当 \(X=Y\) 时,\(Cov(X, X) = Var(X)\)。
独立性
二元独立性 (Binary Independence)
核心概念: 描述两个事件之间是否存在因果或统计关联的最基础准则。
- 核心定义: $$ P(A \cap B) = P(A)P(B) $$
- 条件概率等价判定: $$ P(A|B) = P(A) \quad (\text{前提 } P(B) > 0) $$
- 性质: 若 \(A\) 与 \(B\) 独立,则其对应的对立事件组合(如 \(\bar{A}\) 与 \(B\))亦保持独立。
两两独立 (Pairwise Independence)
核心概念: 一组事件中,任意两个事件都满足独立性,但整体未必联动。
- 成立条件: 对于事件集 \(\{A_1, A_2, \dots, A_n\}\),满足: $$ P(A_i A_j) = P(A_i)P(A_j) \quad (\forall i \neq j) $$
- 局限性: 无法推导出三个或更多事件同时发生时的概率乘法关系。
相互独立 (Mutual Independence)
核心概念: 最严格的独立性,要求事件组内任何子集的发生都不影响其余事件。
- 核心定义: 对 \(n\) 个事件中任意 \(k\) 个事件 (\(2 \le k \le n\)),均满足: $$ P(A_{i_1} A_{i_2} \dots A_{i_k}) = P(A_{i_1})P(A_{i_2}) \dots P(A_{i_k}) $$
- 推导结论: 相互独立 \(\implies\) 两两独立(反之不成立)。
随机变量独立性 (Independence of Random Variables)
核心概念: 将事件独立性扩展至连续或离散取值的分布函数。
- 核心定义(分布函数): $$ F(x, y) = F_X(x)F_Y(y) $$
- 核心定义(密度函数): $$ f(x, y) = f_X(x)f_Y(y) $$
条件独立性
在给定第三方观测变量 \(C\) 的情况下,事件 \(A\) 和 \(B\) 变得互不相关。
- 核心定义: $$ P(AB|C) = P(A|C)P(B|C) $$
- 等价表达: \(P(A|BC) = P(A|C)\)
。
相关系数
衡量两个随机变量之间线性相关程度的无量纲指标。
- 计算公式: $$ \rho_{XY} = \frac{\text{Cov}(X, Y)}{\sqrt{\text{Var}(X)}\sqrt{\text{Var}(Y)}} $$
- 性质判定: \(|\rho_{XY}| \le 1\);若 \(|\rho_{XY}|=1\) 则 \(X, Y\) 线性相关;若 \(\rho_{XY}=0\) 则 不相关 。
贝叶斯定理
条件概率 (Conditional Probability)
在已知事件 \(B\) 发生的先决条件下,事件 \(A\) 发生的可能性。
- 成立条件: \(P(B) > 0\)
- 计算公式: $$ P(A|B) = \frac{P(AB)}{P(B)} $$
- 乘法公式: \(P(AB) = P(B)P(A|B) = P(A)P(B|A)\)
贝叶斯定理
描述在观测到新证据后,如何更新对某一假设的先验认知(由果溯因)。
- 核心公式: $$ P(A_i|B) = \frac{P(B|A_i)P(A_i)}{\sum_{j=1}^{n} P(B|A_j)P(A_j)} $$
- 术语对应: \(P(A_i)\) 为 先验概率 ,\(P(A_i|B)\) 为 后验概率 ,\(P(B|A_i)\) 为 似然度 。
大数定律
描述样本均值在试验次数趋于无穷大时,收敛于期望值的统计规律。
- 切比雪夫大数定律: 均方差存在的独立变量序列,其算术平均值依概率收敛于期望。 $$ \lim_{n \to \infty} P\left( \left| \frac{1}{n}\sum_{i=1}^n X_i - \frac{1}{n}\sum_{i=1}^n E(X_i) \right| < \epsilon \right) = 1 $$
- 伯努利大数定律: 事件发生的频率依概率收敛于概率 \(p\)。
中心极限定理
大量独立同分布的随机变量之和,其分布趋近于正态分布,无论原分布为何。
- 独立同分布 (i.i.d.) 情况: 设 \(X_1, \dots, X_n\) 独立同分布,均值 \(\mu\),方差 \(\sigma^2\)。
- 标准化收敛公式: $$ \lim_{n \to \infty} P\left( \frac{\sum_{i=1}^n X_i - n\mu}{\sigma\sqrt{n}} \le x \right) = \Phi(x) $$
多维随机变量
研究多个随机变量在同一样本空间下的累积分布及各自的投影分布。
分布
- 联合分布 (Joint Distribution): \(F(x, y) = P(X \le x, Y \le y)\)
- 边缘分布 (Marginal Distribution): 忽略其他变量后的单变量分布。 $$ f_X(x) = \int_{-\infty}^{\infty} f(x, y) dy $$
协方差矩阵
将多维随机变量各维度间的方差与协方差以矩阵形式排列,表征向量的离散程度与相关性。
- 矩阵定义: 对于随机向量 \(\mathbf{X} = [X_1, X_2, \dots, X_n]^T\): $$ \Sigma_{ij} = \text{Cov}(X_i, X_j) = E[(X_i - E[X_i])(X_j - E[X_j])] $$
- 性质: 协方差矩阵是对称且半正定的。