多元回归与假设检验

从简单回归到多元回归

现实中经济变量通常受多个因素影响。多元回归模型（Multiple Regression Model）允许我们在控制其他变量的情况下，估计某个自变量对因变量的偏效应（Partial Effect）。

\[Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \cdots + \beta_k X_{ki} + u_i\]

矩阵形式为：

\[\mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \mathbf{u}\]

其中 \(\mathbf{X}\) 为 \(n \times (k+1)\) 设计矩阵（含截距列），\(\boldsymbol{\beta}\) 为 \((k+1) \times 1\) 参数向量。

OLS 矩阵推导

最小化残差平方和 \(\mathbf{u}'\mathbf{u} = (\mathbf{Y} - \mathbf{X}\boldsymbol{\beta})'(\mathbf{Y} - \mathbf{X}\boldsymbol{\beta})\)，对 \(\boldsymbol{\beta}\) 求导并令其为零：

\[\frac{\partial}{\partial \boldsymbol{\beta}}(\mathbf{Y} - \mathbf{X}\boldsymbol{\beta})'(\mathbf{Y} - \mathbf{X}\boldsymbol{\beta}) = -2\mathbf{X}'\mathbf{Y} + 2\mathbf{X}'\mathbf{X}\boldsymbol{\beta} = 0\]

得到 OLS 估计量：

\[\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{Y}\]

系数的偏回归解释

\(\hat{\beta}_j\) 的含义是：在控制其他所有自变量不变的条件下，\(X_j\) 每增加一个单位，\(Y\) 的预期变动量。这等价于先将 \(Y\) 和 \(X_j\) 分别对其余自变量回归，再用 \(Y\) 的残差对 \(X_j\) 的残差做简单回归——这就是弗里希-沃-洛弗尔定理（Frisch-Waugh-Lovell Theorem）。

假设检验

t 检验：单个系数

检验单个系数是否显著（\(H_0: \beta_j = 0\)）使用 t 检验（t-test）：

\[t_j = \frac{\hat{\beta}_j}{se(\hat{\beta}_j)} \sim t_{n-k-1}\]

其中标准误为：

\[se(\hat{\beta}_j) = \sqrt{\hat{\sigma}^2 [(\mathbf{X}'\mathbf{X})^{-1}]_{jj}}\]

当 \(|t_j|\) 超过临界值时，拒绝零假设，认为 \(X_j\) 对 \(Y\) 有统计显著的影响。

95% 置信区间为：

\[\hat{\beta}_j \pm t_{n-k-1, 0.025} \cdot se(\hat{\beta}_j)\]

F 检验：联合假设

F 检验（F-test）用于检验多个系数的联合显著性。例如检验 \(H_0: \beta_1 = \beta_2 = \cdots = \beta_q = 0\)：

\[F = \frac{(SSR_r - SSR_{ur})/q}{SSR_{ur}/(n-k-1)} \sim F_{q, n-k-1}\]

其中 \(SSR_r\) 为受约束模型（Restricted Model）的残差平方和，\(SSR_{ur}\) 为无约束模型（Unrestricted Model）的残差平方和，\(q\) 为约束个数。

整体显著性 F 检验

回归输出中报告的整体 F 统计量检验的是所有斜率系数联合为零的假设（\(H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0\)）。即使单个 t 检验不显著，整体 F 检验可能显著，反之亦然。这一现象与多重共线性有关。

等价形式（用 \(R^2\) 表示）：

\[F = \frac{R^2_{ur} - R^2_r}{1 - R^2_{ur}} \cdot \frac{n-k-1}{q}\]

多重共线性

定义与影响

多重共线性（Multicollinearity）指自变量之间存在高度线性相关。严格的完全共线性会导致 \(\mathbf{X}'\mathbf{X}\) 不可逆，OLS 无法计算。更常见的是近似共线性，其后果为：

OLS 仍然无偏且一致
但估计量方差显著增大
t 统计量变小，系数不显著
系数估计对样本变化敏感

多重共线性的直觉

当两个自变量高度相关时，模型难以区分它们各自的独立影响。就像两个人同时推一扇门，你很难判断各自贡献了多少力量。

方差膨胀因子

方差膨胀因子（Variance Inflation Factor, VIF）量化多重共线性对系数方差的放大程度：

\[VIF_j = \frac{1}{1 - R_j^2}\]

其中 \(R_j^2\) 是将 \(X_j\) 对其余所有自变量回归得到的 \(R^2\)。系数方差为：

\[\text{Var}(\hat{\beta}_j) = \frac{\sigma^2}{SST_j \cdot (1 - R_j^2)} = \frac{\sigma^2}{SST_j} \cdot VIF_j\]

当 \(VIF_j = 1\) 时，\(X_j\) 与其他变量完全不相关；当 \(VIF_j = 10\)（\(R_j^2 = 0.9\)）时，方差是无共线性时的 10 倍。

VIF 的经验法则

常见的经验法则是 \(VIF > 10\) 表示严重的多重共线性问题。但这并非绝对标准——若样本量足够大，即使 VIF 较高，标准误仍可能足够小以检测到显著效应。多重共线性本质上是数据不足的问题，而非模型设定问题。

处理多重共线性

增加样本量：最根本的方法
删除高度相关的变量：但要注意遗漏变量偏差
主成分回归（Principal Component Regression）：将相关变量合成正交成分
岭回归（Ridge Regression）：引入 \(L_2\) 惩罚，以偏差换取方差降低

模型设定问题

遗漏变量偏差预览

如果真实模型为 \(Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + u\)，但我们遗漏了 \(X_2\)，只估计 \(Y = \beta_0 + \beta_1 X_1 + v\)，则：

\[E(\tilde{\beta}_1) = \beta_1 + \beta_2 \cdot \frac{\sum(X_{1i}-\bar{X}_1)(X_{2i}-\bar{X}_2)}{\sum(X_{1i}-\bar{X}_1)^2}\]

偏差方向取决于 \(\beta_2\) 的符号和 \(X_1\) 与 \(X_2\) 的相关方向。

无关变量

加入与 \(Y\) 无关的变量（\(\beta_j = 0\) 的变量）不会导致偏差，但会增加其他系数的方差（效率损失）。因此模型选择需要在偏差（遗漏相关变量）和方差（包含无关变量）之间权衡。

信息准则提供了形式化的模型选择工具：

\[AIC = \ln\left(\frac{SSR}{n}\right) + \frac{2(k+1)}{n}\]

\[BIC = \ln\left(\frac{SSR}{n}\right) + \frac{(k+1)\ln n}{n}\]

BIC 对参数数量的惩罚更重，倾向于选择更简洁的模型。

多元回归与假设检验构成了实证研究的基础工具。正确理解系数解释、检验逻辑和共线性问题，是开展可靠实证分析的前提。