因果推断

因果推断（Causal Inference）研究的是如何从数据中识别因果关系，而非仅仅是相关关系。这是数据科学和AI领域中一个日益重要的方向——"相关不等于因果"是统计学的基本常识，但如何从观测数据中提取因果信息，长期以来缺乏系统的方法论。

关于因果学习在AI中的前沿研究，参见因果学习。

为什么需要因果推断

因果推断的核心问题

反事实问题（Counterfactual）： "如果当时没有做 X，结果会怎样？" 这是因果推断最本质的问题。例如：

如果这个病人没有服药，病情会如何？
如果没有投放广告，销量会是多少？

我们永远无法同时观测到"做了X"和"没做X"的结果——这被称为因果推断的根本问题（Fundamental Problem of Causal Inference）。

因果推断的理论框架

Rubin 因果模型 (Potential Outcomes Framework)

由 Donald Rubin 提出，也称为潜在结果框架。核心思想是为每个个体定义两个潜在结果：

\(Y_i(1)\)：个体 \(i\) 接受处理时的结果
\(Y_i(0)\)：个体 \(i\) 未接受处理时的结果

个体处理效应（Individual Treatment Effect）：

\[ \tau_i = Y_i(1) - Y_i(0) \]

但我们只能观测到其中一个（对应个体实际是否接受了处理），另一个是反事实的，无法观测。

平均处理效应（Average Treatment Effect, ATE）：

\[ \text{ATE} = E[Y(1) - Y(0)] = E[Y(1)] - E[Y(0)] \]

Pearl 因果模型 (Structural Causal Model)

由 Judea Pearl 提出的结构因果模型（SCM），使用有向无环图（DAG）来表示变量之间的因果关系。

核心概念：

因果图（DAG）：节点表示变量，有向边表示因果关系
do 算子：\(P(Y | do(X=x))\) 表示"主动设置 X 为 x 后，Y 的分布"，区别于被动观测 \(P(Y | X=x)\)
后门准则（Back-door Criterion）：判断哪些变量需要控制才能识别因果效应
前门准则（Front-door Criterion）：当存在不可观测的混淆变量时的替代方案

Pearl 的因果层级：

层级	问题类型	典型问题	数据需求
关联	观察	"看到X时，Y如何？"	观测数据
干预	行动	"如果做X，Y会如何？"	实验/因果模型
反事实	想象	"如果当时做了X，Y会如何？"	完整因果模型

常用因果推断方法

随机对照实验 (RCT)

随机对照实验（Randomized Controlled Trial）是因果推断的"金标准"。通过随机分组消除混淆变量的影响：

处理组：接受干预（如服药、看广告）
对照组：不接受干预
由于随机分组，两组在所有其他特征上统计上相同

互联网领域的 A/B 测试本质上就是 RCT。

倾向得分匹配 (Propensity Score Matching)

当无法做随机实验时，通过倾向得分（接受处理的概率）来匹配处理组和对照组中"相似"的个体：

\[ e(X) = P(T = 1 | X) \]

将处理组中的每个个体与对照组中倾向得分最接近的个体配对，然后比较结果差异。

工具变量 (Instrumental Variables)

当存在不可观测的混淆变量时，找一个"工具变量" \(Z\) 满足：

\(Z\) 与处理变量 \(X\) 相关（相关性条件）
\(Z\) 只通过 \(X\) 影响结果 \(Y\)（排他性条件）
\(Z\) 与混淆变量无关

经典案例：用"距离大学的远近"作为工具变量来估计教育对收入的因果效应。

双重差分 (Difference-in-Differences, DiD)

比较处理组和对照组在干预前后的变化差异：

\[ \text{DiD} = (Y_{\text{处理组,后}} - Y_{\text{处理组,前}}) - (Y_{\text{对照组,后}} - Y_{\text{对照组,前}}) \]

关键假设（平行趋势假设）： 如果没有干预，两组的变化趋势应该相同。

断点回归 (Regression Discontinuity)

当处理的分配由一个连续变量的阈值决定时（如考试分数超过60分才能获得奖学金），可以比较阈值两侧的个体来估计因果效应。

因果推断与机器学习

因果推断的ML方法

传统因果推断假设线性模型，但机器学习可以处理更复杂的非线性关系：

因果森林（Causal Forest）：基于随机森林估计异质性处理效应
Double/Debiased ML：使用ML模型估计混淆效应，然后用残差估计因果效应
CATE 估计：Conditional Average Treatment Effect，估计不同子群体的差异化处理效应

因果推断对AI的意义

公平性：判断AI决策是否对特定群体存在因果歧视
可解释性：从"这个特征与预测相关"到"这个特征导致了这个预测"
鲁棒性：基于因果关系的模型在分布变化（distribution shift）下更鲁棒
反事实解释：告诉用户"如果你的收入再高5000元，贷款就会被批准"

参考

Pearl, "Causality: Models, Reasoning, and Inference", 2nd Edition, 2009
Rubin, "Causal Inference Using Potential Outcomes", JASA, 2005
Peters et al., "Elements of Causal Inference", MIT Press, 2017
Hernan & Robins, "Causal Inference: What If", Chapman & Hall, 2020