Skip to content

概率论

基本概念

概率空间 (Probability Space)

核心定义 :用于精确描述随机试验数学结构的 三元组 \((\Omega, \mathcal{F}, P)\)**** 。

  • 样本空间 (\(\Omega\)) :试验所有可能结果的集合。
  • 事件空间 (\(\mathcal{F}\)) :所有可能事件(样本空间的子集)构成的集合。
  • 概率函数 (\(P\)) :将事件映射到 \([0, 1]\) 实数的函数。

概率公理(概率法则)

\[ P(A) \in [0, 1], \quad \forall A \in \mathcal{F} \]
\[ P(\Omega) = 1 \]

互斥事件加法法则 :若 \(\alpha \cap \beta = \emptyset\),则:

\[ P(\alpha \cup \beta) = P(\alpha) + P(\beta) \]

随机变量 (Random Variable)

核心定义 :将样本空间中的试验结果映射到实数数值的 映射函数

  • 表示法\(P(X=a)\) 表示随机变量 \(X\) 取值为 \(a\) 的概率。
  • 值域 :记作 \(Val(X)\)
  • 类型
  • 离散型 :取值集合有限或可列。
  • 连续型 :取值于连续区间。

概率分布类型

核心定义 :描述随机变量取不同值可能性的数学表达。

  • 概率分布 \(P(X)\)* :描述单个随机变量 *\(X\) 取值的可能性。
  • 联合分布 \(P(X, Y)\)**** :描述多个随机变量同时取特定值的可能性。
  • 边缘分布 \(P(X)\)**** :从联合分布中通过对其他变量求和(或积分)得到的单一变量分布。
  • 条件分布 \(P(X|Y)\)* :在已知变量 *\(Y\) 发生的条件下,变量 \(X\) 发生的概率分布。

条件概率定义式

\[ P(X=a | Y=b) = \frac{P(X=a, Y=b)}{P(Y=b)} \]

伯努利分布

伯努利分布(Bernoulli Distribution)是最简单的离散分布,描述只有两种结果的单次随机试验(如抛硬币)。

\[ P(X=k) = p^k (1-p)^{1-k}, \quad k \in \{0, 1\} \]
  • 期望\(E[X] = p\)
  • 方差\(\text{Var}(X) = p(1-p)\)

进行 \(n\) 次独立伯努利试验,成功次数服从二项分布(Binomial Distribution)\(X \sim B(n, p)\)

高斯分布

高斯分布(Gaussian Distribution),也称正态分布(Normal Distribution),是连续概率分布中最重要的分布。

\[ p(x) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \]

记作 \(X \sim \mathcal{N}(\mu, \sigma^2)\),其中 \(\mu\) 为均值,\(\sigma^2\) 为方差。

标准正态分布\(\mu=0, \sigma=1\) 时,\(X \sim \mathcal{N}(0, 1)\)

高斯分布在机器学习中的重要性:

  • 中心极限定理:大量独立随机变量之和近似服从正态分布
  • 最大熵原理:在给定均值和方差的约束下,正态分布是熵最大的连续分布
  • 贝叶斯推断中常用正态分布作为先验

多元高斯分布\(\mathbf{x} \sim \mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\Sigma})\),其中 \(\boldsymbol{\Sigma}\) 为协方差矩阵。

\[ p(\mathbf{x}) = \frac{1}{(2\pi)^{d/2}|\boldsymbol{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\mathbf{x}-\boldsymbol{\mu})\right) \]

多项式分布

多项式分布(Multinomial Distribution)是二项分布的推广,描述 \(n\) 次独立试验中 \(k\) 种结果各出现多少次。

\[ P(X_1=n_1, \ldots, X_k=n_k) = \frac{n!}{n_1! \cdots n_k!} p_1^{n_1} \cdots p_k^{n_k} \]

其中 \(\sum_{i=1}^k n_i = n\)\(\sum_{i=1}^k p_i = 1\)

在NLP中,多项式分布常用于建模词频(Bag-of-Words 模型)。当 \(n=1\) 时退化为类别分布(Categorical Distribution),即 Softmax 输出的概率分布。

连接概率的核心法则

核心定义 :建立边缘、联合与条件概率之间转换关系的计算逻辑。

加法法则 (Sum Rule)

  • 判定逻辑 :用于从联合分布推导边缘分布(消除干扰变量)。
  • 离散形式
\[ P(X) = \sum_{y \in Val(Y)} P(X, Y) \]
  • 连续形式
\[ P(X) = \int_{y \in Val(Y)} P(X, Y) dy \]

乘法法则 / 链式法则 (Chain Rule)

  • 判定逻辑 :用于将联合分布分解为边缘分布与条件分布的乘积。
  • 核心公式
\[ P(X, Y) = P(X)P(Y|X) \]
  • 推广公式
\[ P(X_1, \dots, X_n) = \prod_{i=1}^n P(X_i | X_1, \dots, X_{i-1}) \]

贝叶斯定理 (Bayes' Theorem)

  • 核心定义 :描述观测到新数据后,先验概率如何转化为后验概率。
  • 核心公式
\[ P(X|Y) = \frac{P(Y|X)P(X)}{P(Y)} \]

全概率公式 (Law of Total Probability)

核心定义 :通过完备事件组的条件概率加权平均,计算目标事件的总概率。

  • 成立条件 :事件组 \(B_1, B_2, \dots, B_n\) 两两互斥且其并集为全集 \(\Omega\)
  • 核心公式
\[ P(A) = \sum_{i=1}^n P(B_i)P(A|B_i) \]

概率分布

离散分布:概率质量函数 (PMF)

核心概念 :离散分布通过直接为随机变量的每个可能取值分配具体的概率“质量”来定义。

  • 定义概率质量函数 (Probability Mass Function, PMF) ,记为 \(P(X=x)\)
  • 成立条件
  1. 非负性:\(P(X=x_i) \ge 0\)
  2. 归一化:所有可能取值的概率之和必须等于 1。
  • 计算公式
\[ \sum_{i} P(X=x_i) = 1 \]
  • 示例(抛硬币)
\[ P(X=x) = 0.5, \quad x \in \{0, 1\} \]

连续分布:概率密度函数 (PDF)

核心概念 :连续分布无法为单个点分配概率(单点概率为 0),而是通过描述概率在区间内的“密度”来定义。

  • 定义概率密度函数 (Probability Density Function, PDF) ,记为 \(f(x)\)
  • 成立条件
  1. 非负性:\(f(x) \ge 0\)
  2. 归一化:全值域上的积分必须等于 1。
  • 计算公式(区间概率)
\[ P(a \le X \le b) = \int_{a}^{b} f(x) dx \]
  • 联合分布扩展
\[ P(a \le X \le b, c \le Y \le d) = \int_{a}^{b} \int_{c}^{d} f(x, y) dx dy \]

累积分布函数 (CDF)

核心概念 :描述随机变量落在小于或等于某一特定值 \(x\) 的范围内的总概率。

  • 定义累积分布函数 (Cumulative Distribution Function, CDF) ,记为 \(F(x)\)
  • PDF 与 CDF 的转换关系
\[ F(x) = P(X \le x) = \int_{-\infty}^{x} f(u) du \]
  • 反向推导
\[ f(x) = \frac{d}{dx} F(x) \]

期望/方差

期望 (Expectation)

核心定义 :反映随机变量平均取值大小的一阶矩,物理意义为概率分布的“重心”。

  • 基本定义
\[ E(X) = \sum_{i} p_i x_i \quad \text{或} \quad \int x f(x) dx \]
  • 线性期望(通式) :无论变量是否独立,和的期望等于期望的和。
\[ E\left(\sum_{i=1}^{n} X_i\right) = \sum_{i=1}^{n} E(X_i) \]
  • 独立变量乘积 :若 \(X \perp Y\),则:
\[ E(XY) = E(X)E(Y) \]

.

方差 (Variance)

核心定义 :衡量随机变量与其期望值的偏离程度,即分布的离散程度。

  • 基本定义
\[ Var(X) = E\left[(X - E(X))^2\right] \]
  • 机器学习常用计算公式
\[ Var(X) = E(X^2) - [E(X)]^2 \]
  • 线性变换性质
\[ Var(aX + b) = a^2 Var(X) \]
  • 独立变量加法 :若 \(X \perp Y\),则:
\[ Var(X \pm Y) = Var(X) + Var(Y) \]

.

协方差 (Covariance)

核心定义 :度量两个随机变量之间的线性相关方向与强度。

  • 核心公式
\[ Cov(X, Y) = E[(X - E(X))(Y - E(Y))] \]
  • 特殊情况 :当 \(X=Y\) 时,\(Cov(X, X) = Var(X)\)

独立性

二元独立性 (Binary Independence)

核心概念: 描述两个事件之间是否存在因果或统计关联的最基础准则。

  • 核心定义: $$ P(A \cap B) = P(A)P(B) $$
  • 条件概率等价判定: $$ P(A|B) = P(A) \quad (\text{前提 } P(B) > 0) $$
  • 性质:\(A\)\(B\) 独立,则其对应的对立事件组合(如 \(\bar{A}\)\(B\))亦保持独立。

两两独立 (Pairwise Independence)

核心概念: 一组事件中,任意两个事件都满足独立性,但整体未必联动。

  • 成立条件: 对于事件集 \(\{A_1, A_2, \dots, A_n\}\),满足: $$ P(A_i A_j) = P(A_i)P(A_j) \quad (\forall i \neq j) $$
  • 局限性: 无法推导出三个或更多事件同时发生时的概率乘法关系。

相互独立 (Mutual Independence)

核心概念: 最严格的独立性,要求事件组内任何子集的发生都不影响其余事件。

  • 核心定义:\(n\) 个事件中任意 \(k\) 个事件 (\(2 \le k \le n\)),均满足: $$ P(A_{i_1} A_{i_2} \dots A_{i_k}) = P(A_{i_1})P(A_{i_2}) \dots P(A_{i_k}) $$
  • 推导结论: 相互独立 \(\implies\) 两两独立(反之不成立)。

随机变量独立性 (Independence of Random Variables)

核心概念: 将事件独立性扩展至连续或离散取值的分布函数。

  • 核心定义(分布函数): $$ F(x, y) = F_X(x)F_Y(y) $$
  • 核心定义(密度函数): $$ f(x, y) = f_X(x)f_Y(y) $$

条件独立性

在给定第三方观测变量 \(C\) 的情况下,事件 \(A\)\(B\) 变得互不相关。

  • 核心定义: $$ P(AB|C) = P(A|C)P(B|C) $$
  • 等价表达: \(P(A|BC) = P(A|C)\)

相关系数

衡量两个随机变量之间线性相关程度的无量纲指标。

  • 计算公式: $$ \rho_{XY} = \frac{\text{Cov}(X, Y)}{\sqrt{\text{Var}(X)}\sqrt{\text{Var}(Y)}} $$
  • 性质判定: \(|\rho_{XY}| \le 1\);若 \(|\rho_{XY}|=1\)\(X, Y\) 线性相关;若 \(\rho_{XY}=0\)不相关

贝叶斯定理

条件概率 (Conditional Probability)

在已知事件 \(B\) 发生的先决条件下,事件 \(A\) 发生的可能性。

  • 成立条件: \(P(B) > 0\)
  • 计算公式: $$ P(A|B) = \frac{P(AB)}{P(B)} $$
  • 乘法公式: \(P(AB) = P(B)P(A|B) = P(A)P(B|A)\)

贝叶斯定理

描述在观测到新证据后,如何更新对某一假设的先验认知(由果溯因)。

  • 核心公式: $$ P(A_i|B) = \frac{P(B|A_i)P(A_i)}{\sum_{j=1}^{n} P(B|A_j)P(A_j)} $$
  • 术语对应: \(P(A_i)\)先验概率\(P(A_i|B)\)后验概率\(P(B|A_i)\)似然度

大数定律

描述样本均值在试验次数趋于无穷大时,收敛于期望值的统计规律。

  • 切比雪夫大数定律: 均方差存在的独立变量序列,其算术平均值依概率收敛于期望。 $$ \lim_{n \to \infty} P\left( \left| \frac{1}{n}\sum_{i=1}^n X_i - \frac{1}{n}\sum_{i=1}^n E(X_i) \right| < \epsilon \right) = 1 $$
  • 伯努利大数定律: 事件发生的频率依概率收敛于概率 \(p\)

中心极限定理

大量独立同分布的随机变量之和,其分布趋近于正态分布,无论原分布为何。

  • 独立同分布 (i.i.d.) 情况:\(X_1, \dots, X_n\) 独立同分布,均值 \(\mu\),方差 \(\sigma^2\)
  • 标准化收敛公式: $$ \lim_{n \to \infty} P\left( \frac{\sum_{i=1}^n X_i - n\mu}{\sigma\sqrt{n}} \le x \right) = \Phi(x) $$

多维随机变量

研究多个随机变量在同一样本空间下的累积分布及各自的投影分布。

分布

  • 联合分布 (Joint Distribution): \(F(x, y) = P(X \le x, Y \le y)\)
  • 边缘分布 (Marginal Distribution): 忽略其他变量后的单变量分布。 $$ f_X(x) = \int_{-\infty}^{\infty} f(x, y) dy $$

协方差矩阵

将多维随机变量各维度间的方差与协方差以矩阵形式排列,表征向量的离散程度与相关性。

  • 矩阵定义: 对于随机向量 \(\mathbf{X} = [X_1, X_2, \dots, X_n]^T\): $$ \Sigma_{ij} = \text{Cov}(X_i, X_j) = E[(X_i - E[X_i])(X_j - E[X_j])] $$
  • 性质: 协方差矩阵是对称半正定的。

评论 #