因果推断
因果推断(Causal Inference)研究的是如何从数据中识别因果关系,而非仅仅是相关关系。这是数据科学和AI领域中一个日益重要的方向——"相关不等于因果"是统计学的基本常识,但如何从观测数据中提取因果信息,长期以来缺乏系统的方法论。
关于因果学习在AI中的前沿研究,参见 因果学习。
为什么需要因果推断
相关 vs 因果
经典案例:冰淇淋销量和溺水率高度相关,但吃冰淇淋不会导致溺水。真正的原因是"天气热"同时导致了两者。
天气热 → 冰淇淋销量↑
天气热 → 溺水率↑
冰淇淋销量 ↔ 溺水率(相关但非因果)
因果推断的核心问题
反事实问题(Counterfactual): "如果当时没有做 X,结果会怎样?" 这是因果推断最本质的问题。例如:
- 如果这个病人没有服药,病情会如何?
- 如果没有投放广告,销量会是多少?
我们永远无法同时观测到"做了X"和"没做X"的结果——这被称为因果推断的根本问题(Fundamental Problem of Causal Inference)。
因果推断的理论框架
Rubin 因果模型 (Potential Outcomes Framework)
由 Donald Rubin 提出,也称为潜在结果框架。核心思想是为每个个体定义两个潜在结果:
- \(Y_i(1)\):个体 \(i\) 接受处理时的结果
- \(Y_i(0)\):个体 \(i\) 未接受处理时的结果
个体处理效应(Individual Treatment Effect):
但我们只能观测到其中一个(对应个体实际是否接受了处理),另一个是反事实的,无法观测。
平均处理效应(Average Treatment Effect, ATE):
Pearl 因果模型 (Structural Causal Model)
由 Judea Pearl 提出的结构因果模型(SCM),使用有向无环图(DAG)来表示变量之间的因果关系。
核心概念:
- 因果图(DAG):节点表示变量,有向边表示因果关系
- do 算子:\(P(Y | do(X=x))\) 表示"主动设置 X 为 x 后,Y 的分布",区别于被动观测 \(P(Y | X=x)\)
- 后门准则(Back-door Criterion):判断哪些变量需要控制才能识别因果效应
- 前门准则(Front-door Criterion):当存在不可观测的混淆变量时的替代方案
Pearl 的因果层级:
| 层级 | 问题类型 | 典型问题 | 数据需求 |
|---|---|---|---|
| 关联 | 观察 | "看到X时,Y如何?" | 观测数据 |
| 干预 | 行动 | "如果做X,Y会如何?" | 实验/因果模型 |
| 反事实 | 想象 | "如果当时做了X,Y会如何?" | 完整因果模型 |
常用因果推断方法
随机对照实验 (RCT)
随机对照实验(Randomized Controlled Trial)是因果推断的"金标准"。通过随机分组消除混淆变量的影响:
- 处理组:接受干预(如服药、看广告)
- 对照组:不接受干预
- 由于随机分组,两组在所有其他特征上统计上相同
互联网领域的 A/B 测试本质上就是 RCT。
倾向得分匹配 (Propensity Score Matching)
当无法做随机实验时,通过倾向得分(接受处理的概率)来匹配处理组和对照组中"相似"的个体:
将处理组中的每个个体与对照组中倾向得分最接近的个体配对,然后比较结果差异。
工具变量 (Instrumental Variables)
当存在不可观测的混淆变量时,找一个"工具变量" \(Z\) 满足:
- \(Z\) 与处理变量 \(X\) 相关(相关性条件)
- \(Z\) 只通过 \(X\) 影响结果 \(Y\)(排他性条件)
- \(Z\) 与混淆变量无关
经典案例:用"距离大学的远近"作为工具变量来估计教育对收入的因果效应。
双重差分 (Difference-in-Differences, DiD)
比较处理组和对照组在干预前后的变化差异:
关键假设(平行趋势假设): 如果没有干预,两组的变化趋势应该相同。
断点回归 (Regression Discontinuity)
当处理的分配由一个连续变量的阈值决定时(如考试分数超过60分才能获得奖学金),可以比较阈值两侧的个体来估计因果效应。
因果推断与机器学习
因果推断的ML方法
传统因果推断假设线性模型,但机器学习可以处理更复杂的非线性关系:
- 因果森林(Causal Forest):基于随机森林估计异质性处理效应
- Double/Debiased ML:使用ML模型估计混淆效应,然后用残差估计因果效应
- CATE 估计:Conditional Average Treatment Effect,估计不同子群体的差异化处理效应
因果推断对AI的意义
- 公平性:判断AI决策是否对特定群体存在因果歧视
- 可解释性:从"这个特征与预测相关"到"这个特征导致了这个预测"
- 鲁棒性:基于因果关系的模型在分布变化(distribution shift)下更鲁棒
- 反事实解释:告诉用户"如果你的收入再高5000元,贷款就会被批准"
参考
- Pearl, "Causality: Models, Reasoning, and Inference", 2nd Edition, 2009
- Rubin, "Causal Inference Using Potential Outcomes", JASA, 2005
- Peters et al., "Elements of Causal Inference", MIT Press, 2017
- Hernan & Robins, "Causal Inference: What If", Chapman & Hall, 2020