Skip to content

因果推断

因果推断(Causal Inference)研究的是如何从数据中识别因果关系,而非仅仅是相关关系。这是数据科学和AI领域中一个日益重要的方向——"相关不等于因果"是统计学的基本常识,但如何从观测数据中提取因果信息,长期以来缺乏系统的方法论。

关于因果学习在AI中的前沿研究,参见 因果学习


为什么需要因果推断

相关 vs 因果

经典案例:冰淇淋销量和溺水率高度相关,但吃冰淇淋不会导致溺水。真正的原因是"天气热"同时导致了两者。

天气热 → 冰淇淋销量↑
天气热 → 溺水率↑
冰淇淋销量 ↔ 溺水率(相关但非因果)

因果推断的核心问题

反事实问题(Counterfactual): "如果当时没有做 X,结果会怎样?" 这是因果推断最本质的问题。例如:

  • 如果这个病人没有服药,病情会如何?
  • 如果没有投放广告,销量会是多少?

我们永远无法同时观测到"做了X"和"没做X"的结果——这被称为因果推断的根本问题(Fundamental Problem of Causal Inference)


因果推断的理论框架

Rubin 因果模型 (Potential Outcomes Framework)

由 Donald Rubin 提出,也称为潜在结果框架。核心思想是为每个个体定义两个潜在结果:

  • \(Y_i(1)\):个体 \(i\) 接受处理时的结果
  • \(Y_i(0)\):个体 \(i\) 未接受处理时的结果

个体处理效应(Individual Treatment Effect):

\[ \tau_i = Y_i(1) - Y_i(0) \]

但我们只能观测到其中一个(对应个体实际是否接受了处理),另一个是反事实的,无法观测。

平均处理效应(Average Treatment Effect, ATE):

\[ \text{ATE} = E[Y(1) - Y(0)] = E[Y(1)] - E[Y(0)] \]

Pearl 因果模型 (Structural Causal Model)

由 Judea Pearl 提出的结构因果模型(SCM),使用有向无环图(DAG)来表示变量之间的因果关系。

核心概念:

  • 因果图(DAG):节点表示变量,有向边表示因果关系
  • do 算子\(P(Y | do(X=x))\) 表示"主动设置 X 为 x 后,Y 的分布",区别于被动观测 \(P(Y | X=x)\)
  • 后门准则(Back-door Criterion):判断哪些变量需要控制才能识别因果效应
  • 前门准则(Front-door Criterion):当存在不可观测的混淆变量时的替代方案

Pearl 的因果层级:

层级 问题类型 典型问题 数据需求
关联 观察 "看到X时,Y如何?" 观测数据
干预 行动 "如果做X,Y会如何?" 实验/因果模型
反事实 想象 "如果当时做了X,Y会如何?" 完整因果模型

常用因果推断方法

随机对照实验 (RCT)

随机对照实验(Randomized Controlled Trial)是因果推断的"金标准"。通过随机分组消除混淆变量的影响:

  • 处理组:接受干预(如服药、看广告)
  • 对照组:不接受干预
  • 由于随机分组,两组在所有其他特征上统计上相同

互联网领域的 A/B 测试本质上就是 RCT。

倾向得分匹配 (Propensity Score Matching)

当无法做随机实验时,通过倾向得分(接受处理的概率)来匹配处理组和对照组中"相似"的个体:

\[ e(X) = P(T = 1 | X) \]

将处理组中的每个个体与对照组中倾向得分最接近的个体配对,然后比较结果差异。

工具变量 (Instrumental Variables)

当存在不可观测的混淆变量时,找一个"工具变量" \(Z\) 满足:

  1. \(Z\) 与处理变量 \(X\) 相关(相关性条件)
  2. \(Z\) 只通过 \(X\) 影响结果 \(Y\)(排他性条件)
  3. \(Z\) 与混淆变量无关

经典案例:用"距离大学的远近"作为工具变量来估计教育对收入的因果效应。

双重差分 (Difference-in-Differences, DiD)

比较处理组和对照组在干预前后的变化差异:

\[ \text{DiD} = (Y_{\text{处理组,后}} - Y_{\text{处理组,前}}) - (Y_{\text{对照组,后}} - Y_{\text{对照组,前}}) \]

关键假设(平行趋势假设): 如果没有干预,两组的变化趋势应该相同。

断点回归 (Regression Discontinuity)

当处理的分配由一个连续变量的阈值决定时(如考试分数超过60分才能获得奖学金),可以比较阈值两侧的个体来估计因果效应。


因果推断与机器学习

因果推断的ML方法

传统因果推断假设线性模型,但机器学习可以处理更复杂的非线性关系:

  • 因果森林(Causal Forest):基于随机森林估计异质性处理效应
  • Double/Debiased ML:使用ML模型估计混淆效应,然后用残差估计因果效应
  • CATE 估计:Conditional Average Treatment Effect,估计不同子群体的差异化处理效应

因果推断对AI的意义

  • 公平性:判断AI决策是否对特定群体存在因果歧视
  • 可解释性:从"这个特征与预测相关"到"这个特征导致了这个预测"
  • 鲁棒性:基于因果关系的模型在分布变化(distribution shift)下更鲁棒
  • 反事实解释:告诉用户"如果你的收入再高5000元,贷款就会被批准"

参考

  • Pearl, "Causality: Models, Reasoning, and Inference", 2nd Edition, 2009
  • Rubin, "Causal Inference Using Potential Outcomes", JASA, 2005
  • Peters et al., "Elements of Causal Inference", MIT Press, 2017
  • Hernan & Robins, "Causal Inference: What If", Chapman & Hall, 2020

评论 #