回归分析基础:OLS
什么是回归分析?
回归分析(Regression Analysis)是计量经济学(Econometrics)的核心工具,用于量化变量之间的关系。最基本的形式是普通最小二乘法(Ordinary Least Squares, OLS),它通过最小化残差平方和来估计线性模型的参数。
简单线性回归模型
模型设定
考虑因变量 \(Y\) 与自变量 \(X\) 之间的线性关系:
其中 \(\beta_0\) 为截距(Intercept),\(\beta_1\) 为斜率(Slope),\(u_i\) 为随机误差项(Error Term),包含所有未被模型捕捉的因素。
OLS 推导
OLS 的目标是选择 \(\hat{\beta}_0\) 和 \(\hat{\beta}_1\) 使残差平方和最小:
对 \(\hat{\beta}_0\) 和 \(\hat{\beta}_1\) 分别求偏导并令其等于零,得到正规方程(Normal Equations):
求解得到 OLS 估计量:
OLS 的几何解释
OLS 回归线一定通过样本均值点 \((\bar{X}, \bar{Y})\)。从几何上看,OLS 是将 \(Y\) 投影到 \(X\) 张成的空间上,残差向量 \(\hat{u}\) 与 \(X\) 正交:\(X' \hat{u} = 0\)。
高斯-马尔科夫假设
OLS 估计量具有良好统计性质的前提是满足高斯-马尔科夫假设(Gauss-Markov Assumptions):
- 线性性(Linearity):总体模型在参数中是线性的
- 随机抽样(Random Sampling):样本来自随机抽样
- 无完美共线性(No Perfect Collinearity):自变量存在变异且不完全共线
- 零条件均值(Zero Conditional Mean):\(E(u_i | X_i) = 0\),这是最关键的假设
- 同方差性(Homoskedasticity):\(\text{Var}(u_i | X_i) = \sigma^2\),误差项方差恒定
高斯-马尔科夫定理
高斯-马尔科夫定理(Gauss-Markov Theorem)指出:在假设 1-5 成立的条件下,OLS 估计量是最佳线性无偏估计量(Best Linear Unbiased Estimator, BLUE)。"最佳"指在所有线性无偏估计量中方差最小。
OLS 估计量的统计性质
无偏性
在假设 1-4 下,OLS 估计量是无偏的:
证明的关键步骤:将 \(\hat{\beta}_1\) 表示为 \(Y_i\) 的线性组合,利用 \(E(u_i | X_i) = 0\):
取条件期望即得无偏性。
方差
在假设 1-5(含同方差)下:
方差随样本量 \(n\) 增加和 \(X\) 变异 \(SST_X\) 增加而减小。\(\sigma^2\) 的无偏估计为:
分母为 \(n-2\) 是因为估计了两个参数(自由度校正)。
正态性假设下的推断
添加第六个假设——误差正态分布 \(u_i \sim N(0, \sigma^2)\)——则:
据此可以构造 \(t\) 统计量进行假设检验:
其中 \(se(\hat{\beta}_1) = \hat{\sigma} / \sqrt{SST_X}\)。
拟合优度
R 平方
R 平方(R-squared, \(R^2\))衡量模型对因变量变异的解释程度:
其中:
- \(SST = \sum(Y_i - \bar{Y})^2\):总平方和(Total Sum of Squares)
- \(SSE = \sum(\hat{Y}_i - \bar{Y})^2\):解释平方和(Explained Sum of Squares)
- \(SSR = \sum \hat{u}_i^2\):残差平方和(Residual Sum of Squares)
满足 \(SST = SSE + SSR\),因此 \(0 \leq R^2 \leq 1\)。
R 平方的局限
\(R^2\) 的高低不能判断模型的因果有效性。一个高 \(R^2\) 的模型可能存在严重的内生性问题,而一个低 \(R^2\) 的模型仍可能给出 \(\beta_1\) 的无偏估计。在社会科学中,\(R^2\) 通常较低,这是正常的——人类行为受众多因素影响。此外,\(R^2\) 随变量增加而单调不减,因此在多元回归中应使用调整 R 平方(Adjusted \(R^2\))。
调整 R 平方
其中 \(k\) 为自变量个数。调整 R 平方对加入无关变量施加了惩罚,可能随变量增加而下降。
异方差问题
当同方差假设被违反(\(\text{Var}(u_i|X_i) = \sigma_i^2\) 随 \(X\) 变化),OLS 仍然无偏但不再有效(不再 BLUE),且标准误的常规计算公式不正确。
异方差的处理
实践中最常用的做法是使用异方差稳健标准误(Heteroskedasticity-Robust Standard Errors),也称 White 标准误或 Huber-White 标准误。在大样本下,无需假设同方差即可进行有效推断。现代计量软件默认或方便地提供稳健标准误。
OLS 是整个计量经济学大厦的基石。理解其推导、假设和性质,是学习更高级计量方法的必要前提。