Skip to content

回归分析基础:OLS

什么是回归分析?

回归分析(Regression Analysis)是计量经济学(Econometrics)的核心工具,用于量化变量之间的关系。最基本的形式是普通最小二乘法(Ordinary Least Squares, OLS),它通过最小化残差平方和来估计线性模型的参数。

简单线性回归模型

模型设定

考虑因变量 \(Y\) 与自变量 \(X\) 之间的线性关系:

\[Y_i = \beta_0 + \beta_1 X_i + u_i, \quad i = 1, 2, \ldots, n\]

其中 \(\beta_0\) 为截距(Intercept),\(\beta_1\) 为斜率(Slope),\(u_i\) 为随机误差项(Error Term),包含所有未被模型捕捉的因素。

OLS 推导

OLS 的目标是选择 \(\hat{\beta}_0\)\(\hat{\beta}_1\) 使残差平方和最小:

\[\min_{\hat{\beta}_0, \hat{\beta}_1} \sum_{i=1}^{n} \hat{u}_i^2 = \min \sum_{i=1}^{n} (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i)^2\]

\(\hat{\beta}_0\)\(\hat{\beta}_1\) 分别求偏导并令其等于零,得到正规方程(Normal Equations):

\[\sum_{i=1}^{n} (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i) = 0\]
\[\sum_{i=1}^{n} X_i(Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i) = 0\]

求解得到 OLS 估计量:

\[\hat{\beta}_1 = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n}(X_i - \bar{X})^2} = \frac{S_{XY}}{S_{XX}}\]
\[\hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X}\]

OLS 的几何解释

OLS 回归线一定通过样本均值点 \((\bar{X}, \bar{Y})\)。从几何上看,OLS 是将 \(Y\) 投影到 \(X\) 张成的空间上,残差向量 \(\hat{u}\)\(X\) 正交:\(X' \hat{u} = 0\)

高斯-马尔科夫假设

OLS 估计量具有良好统计性质的前提是满足高斯-马尔科夫假设(Gauss-Markov Assumptions):

  1. 线性性(Linearity):总体模型在参数中是线性的
  2. 随机抽样(Random Sampling):样本来自随机抽样
  3. 无完美共线性(No Perfect Collinearity):自变量存在变异且不完全共线
  4. 零条件均值(Zero Conditional Mean):\(E(u_i | X_i) = 0\),这是最关键的假设
  5. 同方差性(Homoskedasticity):\(\text{Var}(u_i | X_i) = \sigma^2\),误差项方差恒定

高斯-马尔科夫定理

高斯-马尔科夫定理(Gauss-Markov Theorem)指出:在假设 1-5 成立的条件下,OLS 估计量是最佳线性无偏估计量(Best Linear Unbiased Estimator, BLUE)。"最佳"指在所有线性无偏估计量中方差最小。

OLS 估计量的统计性质

无偏性

在假设 1-4 下,OLS 估计量是无偏的:

\[E(\hat{\beta}_1) = \beta_1\]

证明的关键步骤:将 \(\hat{\beta}_1\) 表示为 \(Y_i\) 的线性组合,利用 \(E(u_i | X_i) = 0\)

\[\hat{\beta}_1 = \beta_1 + \frac{\sum(X_i - \bar{X})u_i}{\sum(X_i - \bar{X})^2}\]

取条件期望即得无偏性。

方差

在假设 1-5(含同方差)下:

\[\text{Var}(\hat{\beta}_1 | X) = \frac{\sigma^2}{\sum_{i=1}^{n}(X_i - \bar{X})^2} = \frac{\sigma^2}{SST_X}\]

方差随样本量 \(n\) 增加和 \(X\) 变异 \(SST_X\) 增加而减小。\(\sigma^2\) 的无偏估计为:

\[\hat{\sigma}^2 = s^2 = \frac{\sum_{i=1}^{n} \hat{u}_i^2}{n - 2} = \frac{SSR}{n - 2}\]

分母为 \(n-2\) 是因为估计了两个参数(自由度校正)。

正态性假设下的推断

添加第六个假设——误差正态分布 \(u_i \sim N(0, \sigma^2)\)——则:

\[\hat{\beta}_1 \sim N\left(\beta_1, \frac{\sigma^2}{SST_X}\right)\]

据此可以构造 \(t\) 统计量进行假设检验:

\[t = \frac{\hat{\beta}_1 - \beta_{1,0}}{se(\hat{\beta}_1)} \sim t_{n-2}\]

其中 \(se(\hat{\beta}_1) = \hat{\sigma} / \sqrt{SST_X}\)

拟合优度

R 平方

R 平方(R-squared, \(R^2\))衡量模型对因变量变异的解释程度:

\[R^2 = 1 - \frac{SSR}{SST} = \frac{SSE}{SST}\]

其中:

  • \(SST = \sum(Y_i - \bar{Y})^2\):总平方和(Total Sum of Squares)
  • \(SSE = \sum(\hat{Y}_i - \bar{Y})^2\):解释平方和(Explained Sum of Squares)
  • \(SSR = \sum \hat{u}_i^2\):残差平方和(Residual Sum of Squares)

满足 \(SST = SSE + SSR\),因此 \(0 \leq R^2 \leq 1\)

R 平方的局限

\(R^2\) 的高低不能判断模型的因果有效性。一个高 \(R^2\) 的模型可能存在严重的内生性问题,而一个低 \(R^2\) 的模型仍可能给出 \(\beta_1\) 的无偏估计。在社会科学中,\(R^2\) 通常较低,这是正常的——人类行为受众多因素影响。此外,\(R^2\) 随变量增加而单调不减,因此在多元回归中应使用调整 R 平方(Adjusted \(R^2\))。

调整 R 平方

\[\bar{R}^2 = 1 - \frac{SSR/(n-k-1)}{SST/(n-1)} = 1 - (1-R^2)\frac{n-1}{n-k-1}\]

其中 \(k\) 为自变量个数。调整 R 平方对加入无关变量施加了惩罚,可能随变量增加而下降。

异方差问题

当同方差假设被违反(\(\text{Var}(u_i|X_i) = \sigma_i^2\)\(X\) 变化),OLS 仍然无偏但不再有效(不再 BLUE),且标准误的常规计算公式不正确。

异方差的处理

实践中最常用的做法是使用异方差稳健标准误(Heteroskedasticity-Robust Standard Errors),也称 White 标准误或 Huber-White 标准误。在大样本下,无需假设同方差即可进行有效推断。现代计量软件默认或方便地提供稳健标准误。

OLS 是整个计量经济学大厦的基石。理解其推导、假设和性质,是学习更高级计量方法的必要前提。