回归分析基础：OLS

什么是回归分析？

回归分析（Regression Analysis）是计量经济学（Econometrics）的核心工具，用于量化变量之间的关系。最基本的形式是普通最小二乘法（Ordinary Least Squares, OLS），它通过最小化残差平方和来估计线性模型的参数。

简单线性回归模型

模型设定

考虑因变量 \(Y\) 与自变量 \(X\) 之间的线性关系：

\[Y_i = \beta_0 + \beta_1 X_i + u_i, \quad i = 1, 2, \ldots, n\]

其中 \(\beta_0\) 为截距（Intercept），\(\beta_1\) 为斜率（Slope），\(u_i\) 为随机误差项（Error Term），包含所有未被模型捕捉的因素。

OLS 推导

OLS 的目标是选择 \(\hat{\beta}_0\) 和 \(\hat{\beta}_1\) 使残差平方和最小：

\[\min_{\hat{\beta}_0, \hat{\beta}_1} \sum_{i=1}^{n} \hat{u}_i^2 = \min \sum_{i=1}^{n} (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i)^2\]

对 \(\hat{\beta}_0\) 和 \(\hat{\beta}_1\) 分别求偏导并令其等于零，得到正规方程（Normal Equations）：

\[\sum_{i=1}^{n} (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i) = 0\]

\[\sum_{i=1}^{n} X_i(Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i) = 0\]

求解得到 OLS 估计量：

\[\hat{\beta}_1 = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n}(X_i - \bar{X})^2} = \frac{S_{XY}}{S_{XX}}\]

\[\hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X}\]

OLS 的几何解释

OLS 回归线一定通过样本均值点 \((\bar{X}, \bar{Y})\)。从几何上看，OLS 是将 \(Y\) 投影到 \(X\) 张成的空间上，残差向量 \(\hat{u}\) 与 \(X\) 正交：\(X' \hat{u} = 0\)。

高斯-马尔科夫假设

OLS 估计量具有良好统计性质的前提是满足高斯-马尔科夫假设（Gauss-Markov Assumptions）：

线性性（Linearity）：总体模型在参数中是线性的
随机抽样（Random Sampling）：样本来自随机抽样
无完美共线性（No Perfect Collinearity）：自变量存在变异且不完全共线
零条件均值（Zero Conditional Mean）：\(E(u_i | X_i) = 0\)，这是最关键的假设
同方差性（Homoskedasticity）：\(\text{Var}(u_i | X_i) = \sigma^2\)，误差项方差恒定

高斯-马尔科夫定理

高斯-马尔科夫定理（Gauss-Markov Theorem）指出：在假设 1-5 成立的条件下，OLS 估计量是最佳线性无偏估计量（Best Linear Unbiased Estimator, BLUE）。"最佳"指在所有线性无偏估计量中方差最小。

OLS 估计量的统计性质

无偏性

在假设 1-4 下，OLS 估计量是无偏的：

\[E(\hat{\beta}_1) = \beta_1\]

证明的关键步骤：将 \(\hat{\beta}_1\) 表示为 \(Y_i\) 的线性组合，利用 \(E(u_i | X_i) = 0\)：

\[\hat{\beta}_1 = \beta_1 + \frac{\sum(X_i - \bar{X})u_i}{\sum(X_i - \bar{X})^2}\]

取条件期望即得无偏性。

方差

在假设 1-5（含同方差）下：

\[\text{Var}(\hat{\beta}_1 | X) = \frac{\sigma^2}{\sum_{i=1}^{n}(X_i - \bar{X})^2} = \frac{\sigma^2}{SST_X}\]

方差随样本量 \(n\) 增加和 \(X\) 变异 \(SST_X\) 增加而减小。\(\sigma^2\) 的无偏估计为：

\[\hat{\sigma}^2 = s^2 = \frac{\sum_{i=1}^{n} \hat{u}_i^2}{n - 2} = \frac{SSR}{n - 2}\]

分母为 \(n-2\) 是因为估计了两个参数（自由度校正）。

正态性假设下的推断

添加第六个假设——误差正态分布 \(u_i \sim N(0, \sigma^2)\)——则：

\[\hat{\beta}_1 \sim N\left(\beta_1, \frac{\sigma^2}{SST_X}\right)\]

据此可以构造 \(t\) 统计量进行假设检验：

\[t = \frac{\hat{\beta}_1 - \beta_{1,0}}{se(\hat{\beta}_1)} \sim t_{n-2}\]

其中 \(se(\hat{\beta}_1) = \hat{\sigma} / \sqrt{SST_X}\)。

拟合优度

R 平方

R 平方（R-squared, \(R^2\)）衡量模型对因变量变异的解释程度：

\[R^2 = 1 - \frac{SSR}{SST} = \frac{SSE}{SST}\]

其中：

\(SST = \sum(Y_i - \bar{Y})^2\)：总平方和（Total Sum of Squares）
\(SSE = \sum(\hat{Y}_i - \bar{Y})^2\)：解释平方和（Explained Sum of Squares）
\(SSR = \sum \hat{u}_i^2\)：残差平方和（Residual Sum of Squares）

满足 \(SST = SSE + SSR\)，因此 \(0 \leq R^2 \leq 1\)。

R 平方的局限

\(R^2\) 的高低不能判断模型的因果有效性。一个高 \(R^2\) 的模型可能存在严重的内生性问题，而一个低 \(R^2\) 的模型仍可能给出 \(\beta_1\) 的无偏估计。在社会科学中，\(R^2\) 通常较低，这是正常的——人类行为受众多因素影响。此外，\(R^2\) 随变量增加而单调不减，因此在多元回归中应使用调整 R 平方（Adjusted \(R^2\)）。

调整 R 平方

\[\bar{R}^2 = 1 - \frac{SSR/(n-k-1)}{SST/(n-1)} = 1 - (1-R^2)\frac{n-1}{n-k-1}\]

其中 \(k\) 为自变量个数。调整 R 平方对加入无关变量施加了惩罚，可能随变量增加而下降。

异方差问题

当同方差假设被违反（\(\text{Var}(u_i|X_i) = \sigma_i^2\) 随 \(X\) 变化），OLS 仍然无偏但不再有效（不再 BLUE），且标准误的常规计算公式不正确。

异方差的处理

实践中最常用的做法是使用异方差稳健标准误（Heteroskedasticity-Robust Standard Errors），也称 White 标准误或 Huber-White 标准误。在大样本下，无需假设同方差即可进行有效推断。现代计量软件默认或方便地提供稳健标准误。

OLS 是整个计量经济学大厦的基石。理解其推导、假设和性质，是学习更高级计量方法的必要前提。