Skip to content

多元回归与假设检验

从简单回归到多元回归

现实中经济变量通常受多个因素影响。多元回归模型(Multiple Regression Model)允许我们在控制其他变量的情况下,估计某个自变量对因变量的偏效应(Partial Effect)。

\[Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \cdots + \beta_k X_{ki} + u_i\]

矩阵形式为:

\[\mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \mathbf{u}\]

其中 \(\mathbf{X}\)\(n \times (k+1)\) 设计矩阵(含截距列),\(\boldsymbol{\beta}\)\((k+1) \times 1\) 参数向量。

OLS 矩阵推导

最小化残差平方和 \(\mathbf{u}'\mathbf{u} = (\mathbf{Y} - \mathbf{X}\boldsymbol{\beta})'(\mathbf{Y} - \mathbf{X}\boldsymbol{\beta})\),对 \(\boldsymbol{\beta}\) 求导并令其为零:

\[\frac{\partial}{\partial \boldsymbol{\beta}}(\mathbf{Y} - \mathbf{X}\boldsymbol{\beta})'(\mathbf{Y} - \mathbf{X}\boldsymbol{\beta}) = -2\mathbf{X}'\mathbf{Y} + 2\mathbf{X}'\mathbf{X}\boldsymbol{\beta} = 0\]

得到 OLS 估计量:

\[\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{Y}\]

系数的偏回归解释

\(\hat{\beta}_j\) 的含义是:在控制其他所有自变量不变的条件下\(X_j\) 每增加一个单位,\(Y\) 的预期变动量。这等价于先将 \(Y\)\(X_j\) 分别对其余自变量回归,再用 \(Y\) 的残差对 \(X_j\) 的残差做简单回归——这就是弗里希-沃-洛弗尔定理(Frisch-Waugh-Lovell Theorem)。

假设检验

t 检验:单个系数

检验单个系数是否显著(\(H_0: \beta_j = 0\))使用 t 检验(t-test):

\[t_j = \frac{\hat{\beta}_j}{se(\hat{\beta}_j)} \sim t_{n-k-1}\]

其中标准误为:

\[se(\hat{\beta}_j) = \sqrt{\hat{\sigma}^2 [(\mathbf{X}'\mathbf{X})^{-1}]_{jj}}\]

\(|t_j|\) 超过临界值时,拒绝零假设,认为 \(X_j\)\(Y\) 有统计显著的影响。

95% 置信区间为:

\[\hat{\beta}_j \pm t_{n-k-1, 0.025} \cdot se(\hat{\beta}_j)\]

F 检验:联合假设

F 检验(F-test)用于检验多个系数的联合显著性。例如检验 \(H_0: \beta_1 = \beta_2 = \cdots = \beta_q = 0\)

\[F = \frac{(SSR_r - SSR_{ur})/q}{SSR_{ur}/(n-k-1)} \sim F_{q, n-k-1}\]

其中 \(SSR_r\) 为受约束模型(Restricted Model)的残差平方和,\(SSR_{ur}\) 为无约束模型(Unrestricted Model)的残差平方和,\(q\) 为约束个数。

整体显著性 F 检验

回归输出中报告的整体 F 统计量检验的是所有斜率系数联合为零的假设(\(H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0\))。即使单个 t 检验不显著,整体 F 检验可能显著,反之亦然。这一现象与多重共线性有关。

等价形式(用 \(R^2\) 表示):

\[F = \frac{R^2_{ur} - R^2_r}{1 - R^2_{ur}} \cdot \frac{n-k-1}{q}\]

多重共线性

定义与影响

多重共线性(Multicollinearity)指自变量之间存在高度线性相关。严格的完全共线性会导致 \(\mathbf{X}'\mathbf{X}\) 不可逆,OLS 无法计算。更常见的是近似共线性,其后果为:

  1. OLS 仍然无偏且一致
  2. 但估计量方差显著增大
  3. t 统计量变小,系数不显著
  4. 系数估计对样本变化敏感

多重共线性的直觉

当两个自变量高度相关时,模型难以区分它们各自的独立影响。就像两个人同时推一扇门,你很难判断各自贡献了多少力量。

方差膨胀因子

方差膨胀因子(Variance Inflation Factor, VIF)量化多重共线性对系数方差的放大程度:

\[VIF_j = \frac{1}{1 - R_j^2}\]

其中 \(R_j^2\) 是将 \(X_j\) 对其余所有自变量回归得到的 \(R^2\)。系数方差为:

\[\text{Var}(\hat{\beta}_j) = \frac{\sigma^2}{SST_j \cdot (1 - R_j^2)} = \frac{\sigma^2}{SST_j} \cdot VIF_j\]

\(VIF_j = 1\) 时,\(X_j\) 与其他变量完全不相关;当 \(VIF_j = 10\)\(R_j^2 = 0.9\))时,方差是无共线性时的 10 倍。

VIF 的经验法则

常见的经验法则是 \(VIF > 10\) 表示严重的多重共线性问题。但这并非绝对标准——若样本量足够大,即使 VIF 较高,标准误仍可能足够小以检测到显著效应。多重共线性本质上是数据不足的问题,而非模型设定问题。

处理多重共线性

  • 增加样本量:最根本的方法
  • 删除高度相关的变量:但要注意遗漏变量偏差
  • 主成分回归(Principal Component Regression):将相关变量合成正交成分
  • 岭回归(Ridge Regression):引入 \(L_2\) 惩罚,以偏差换取方差降低

模型设定问题

遗漏变量偏差预览

如果真实模型为 \(Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + u\),但我们遗漏了 \(X_2\),只估计 \(Y = \beta_0 + \beta_1 X_1 + v\),则:

\[E(\tilde{\beta}_1) = \beta_1 + \beta_2 \cdot \frac{\sum(X_{1i}-\bar{X}_1)(X_{2i}-\bar{X}_2)}{\sum(X_{1i}-\bar{X}_1)^2}\]

偏差方向取决于 \(\beta_2\) 的符号和 \(X_1\)\(X_2\) 的相关方向。

无关变量

加入与 \(Y\) 无关的变量(\(\beta_j = 0\) 的变量)不会导致偏差,但会增加其他系数的方差(效率损失)。因此模型选择需要在偏差(遗漏相关变量)和方差(包含无关变量)之间权衡。

信息准则提供了形式化的模型选择工具:

\[AIC = \ln\left(\frac{SSR}{n}\right) + \frac{2(k+1)}{n}\]
\[BIC = \ln\left(\frac{SSR}{n}\right) + \frac{(k+1)\ln n}{n}\]

BIC 对参数数量的惩罚更重,倾向于选择更简洁的模型。

多元回归与假设检验构成了实证研究的基础工具。正确理解系数解释、检验逻辑和共线性问题,是开展可靠实证分析的前提。