多元回归与假设检验
从简单回归到多元回归
现实中经济变量通常受多个因素影响。多元回归模型(Multiple Regression Model)允许我们在控制其他变量的情况下,估计某个自变量对因变量的偏效应(Partial Effect)。
矩阵形式为:
其中 \(\mathbf{X}\) 为 \(n \times (k+1)\) 设计矩阵(含截距列),\(\boldsymbol{\beta}\) 为 \((k+1) \times 1\) 参数向量。
OLS 矩阵推导
最小化残差平方和 \(\mathbf{u}'\mathbf{u} = (\mathbf{Y} - \mathbf{X}\boldsymbol{\beta})'(\mathbf{Y} - \mathbf{X}\boldsymbol{\beta})\),对 \(\boldsymbol{\beta}\) 求导并令其为零:
得到 OLS 估计量:
系数的偏回归解释
\(\hat{\beta}_j\) 的含义是:在控制其他所有自变量不变的条件下,\(X_j\) 每增加一个单位,\(Y\) 的预期变动量。这等价于先将 \(Y\) 和 \(X_j\) 分别对其余自变量回归,再用 \(Y\) 的残差对 \(X_j\) 的残差做简单回归——这就是弗里希-沃-洛弗尔定理(Frisch-Waugh-Lovell Theorem)。
假设检验
t 检验:单个系数
检验单个系数是否显著(\(H_0: \beta_j = 0\))使用 t 检验(t-test):
其中标准误为:
当 \(|t_j|\) 超过临界值时,拒绝零假设,认为 \(X_j\) 对 \(Y\) 有统计显著的影响。
95% 置信区间为:
F 检验:联合假设
F 检验(F-test)用于检验多个系数的联合显著性。例如检验 \(H_0: \beta_1 = \beta_2 = \cdots = \beta_q = 0\):
其中 \(SSR_r\) 为受约束模型(Restricted Model)的残差平方和,\(SSR_{ur}\) 为无约束模型(Unrestricted Model)的残差平方和,\(q\) 为约束个数。
整体显著性 F 检验
回归输出中报告的整体 F 统计量检验的是所有斜率系数联合为零的假设(\(H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0\))。即使单个 t 检验不显著,整体 F 检验可能显著,反之亦然。这一现象与多重共线性有关。
等价形式(用 \(R^2\) 表示):
多重共线性
定义与影响
多重共线性(Multicollinearity)指自变量之间存在高度线性相关。严格的完全共线性会导致 \(\mathbf{X}'\mathbf{X}\) 不可逆,OLS 无法计算。更常见的是近似共线性,其后果为:
- OLS 仍然无偏且一致
- 但估计量方差显著增大
- t 统计量变小,系数不显著
- 系数估计对样本变化敏感
多重共线性的直觉
当两个自变量高度相关时,模型难以区分它们各自的独立影响。就像两个人同时推一扇门,你很难判断各自贡献了多少力量。
方差膨胀因子
方差膨胀因子(Variance Inflation Factor, VIF)量化多重共线性对系数方差的放大程度:
其中 \(R_j^2\) 是将 \(X_j\) 对其余所有自变量回归得到的 \(R^2\)。系数方差为:
当 \(VIF_j = 1\) 时,\(X_j\) 与其他变量完全不相关;当 \(VIF_j = 10\)(\(R_j^2 = 0.9\))时,方差是无共线性时的 10 倍。
VIF 的经验法则
常见的经验法则是 \(VIF > 10\) 表示严重的多重共线性问题。但这并非绝对标准——若样本量足够大,即使 VIF 较高,标准误仍可能足够小以检测到显著效应。多重共线性本质上是数据不足的问题,而非模型设定问题。
处理多重共线性
- 增加样本量:最根本的方法
- 删除高度相关的变量:但要注意遗漏变量偏差
- 主成分回归(Principal Component Regression):将相关变量合成正交成分
- 岭回归(Ridge Regression):引入 \(L_2\) 惩罚,以偏差换取方差降低
模型设定问题
遗漏变量偏差预览
如果真实模型为 \(Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + u\),但我们遗漏了 \(X_2\),只估计 \(Y = \beta_0 + \beta_1 X_1 + v\),则:
偏差方向取决于 \(\beta_2\) 的符号和 \(X_1\) 与 \(X_2\) 的相关方向。
无关变量
加入与 \(Y\) 无关的变量(\(\beta_j = 0\) 的变量)不会导致偏差,但会增加其他系数的方差(效率损失)。因此模型选择需要在偏差(遗漏相关变量)和方差(包含无关变量)之间权衡。
信息准则提供了形式化的模型选择工具:
BIC 对参数数量的惩罚更重,倾向于选择更简洁的模型。
多元回归与假设检验构成了实证研究的基础工具。正确理解系数解释、检验逻辑和共线性问题,是开展可靠实证分析的前提。