线性回归:最小二乘法与几何视角 — 回归与广义线性模型

周二开盘前 30 分钟,你在一家百亿规模的私募(private fund)接手了今早的因子配置(factor allocation)任务。手头是沪深300 成份股过去 60 个交易日的日收益,以及 4 个候选风格因子——规模、价值、动量、低波——在同期的横截面暴露。你的 PM 只问一句:「把这批个股的今日预期收益,拟合成这 4 个因子的线性组合,残差还剩多少?」翻成几何语言,你要在 $\mathbb{R}^{60}$ 这个数据空间里,把一根 60 维的收益向量投影(projection)到 4 维因子张成的子空间上,看剩下那一截能不能用一个新的 alpha 信号解释。本课就回答这件事:什么叫「最优」的投影?它的解长什么样?为什么这个看似单纯的代数练习,是后面所有回归推断、诊断、正则化方法共同的几何根基?

1. 模型与五条经典假定

把上面的问题写成数学。设样本量为 $n$ 、参数维数为 $p$ (含截距),响应向量 $y \in \mathbb{R}^n$ ,设计矩阵(design matrix) $X \in \mathbb{R}^{n \times p}$ 的第一列是全 1 向量(对应截距项),系数向量 $\beta \in \mathbb{R}^p$ ,误差向量 $\varepsilon \in \mathbb{R}^n$ 。多元线性回归(multiple linear regression)的紧凑形式是:

y = X\beta + \varepsilon, \quad E[\varepsilon] = 0, \quad \mathrm{Cov}(\varepsilon) = \sigma^2 I_n.

这里 $\mathrm{Cov}(\varepsilon)$ 是协方差矩阵(covariance matrix)。经典 Gauss-Markov 五条假定依次是:(1) 线性性——条件均值是 $X\beta$ ;(2) 零均值误差;(3) 同方差—— $\mathrm{Var}(\varepsilon_i) = \sigma^2$ 对一切 $i$ ;(4) 误差不相关—— $\mathrm{Cov}(\varepsilon_i, \varepsilon_j) = 0$ 当 $i \neq j$ ;(5) 满列秩—— $\mathrm{rank}(X) = p < n$ 。前两条保证 OLS 估计的无偏性;第三、四条决定协方差矩阵的形状,从而支撑下一节的抽样分布;第五条让 $X^\top X$ 可逆,使点估计存在且唯一。正态性(normality)不属于这五条——它是下一节为构造 $t$ / $F$ 检验额外加上的假设。

线性代数小抄(由于模块 2.4.1 尚未排定,本课自带五句提示):列空间 $\mathrm{col}(X)$ 是 $X$ 所有列的张成子空间;秩(rank)是其维数;对称正定阵必可逆;转置满足 $(AB)^\top = B^\top A^\top$ 、 $(A^{-1})^\top = (A^\top)^{-1}$ ;二次型 $f(\beta) = \beta^\top A \beta - 2 b^\top \beta$ 的梯度为 $\nabla f = 2 A \beta - 2 b$ 。后面只会用到这些。

2. 普通最小二乘估计的推导

普通最小二乘(OLS, ordinary least squares)的目标是最小化残差平方和(residual sum of squares) $\mathrm{RSS}(\beta) = \|y - X\beta\|^2$ 。展开:

\mathrm{RSS}(\beta) = (y - X\beta)^\top (y - X\beta) = y^\top y - 2 \beta^\top X^\top y + \beta^\top X^\top X \beta.

按梯度的三条规则逐项求导:

常数项 $y^\top y$ 对 $\beta$ 求导为 $0$ ;
线性项 $-2 \beta^\top X^\top y$ 的梯度为 $-2 X^\top y$ ;
二次型 $\beta^\top X^\top X \beta$ 的梯度为 $2 X^\top X \beta$ (此处 $X^\top X$ 对称)。

合并得 $\nabla_\beta \mathrm{RSS}(\beta) = -2 X^\top y + 2 X^\top X \beta$ 。令其为零,即得正规方程(normal equations):

X^\top X\,\hat{\beta} = X^\top y, \qquad \hat{\beta}_{\mathrm{OLS}} = (X^\top X)^{-1} X^\top y.

二阶条件:Hessian 为 $2 X^\top X$ ,在满列秩假设下严格正定,故 $\mathrm{RSS}$ 是严格凸函数, $\hat{\beta}_{\mathrm{OLS}}$ 是唯一全局极小点。

3. 几何视角:正交投影与帽子矩阵

把同一答案翻成几何语言——这是现代视角(Hastie-Tibshirani-Friedman 之 ESL 第 3.2 节)的精髓。定义拟合值 $\hat{y} = X \hat{\beta}$ ;它是响应向量 $y$ 到列空间 $\mathrm{col}(X)$ 的正交投影(projection),即 $\mathrm{col}(X)$ 中欧氏距离意义下离 $y$ 最近的点。残差 $e = y - \hat{y}$ 满足 $X^\top e = 0$ ——这就是正规方程的等价写法,意思是「残差与设计矩阵的每一列正交」。

把 $y \mapsto \hat{y}$ 这一线性变换记成帽子矩阵(hat matrix) $H$ :

H = X(X^\top X)^{-1} X^\top, \quad H = H^\top, \quad H^2 = H, \quad \mathrm{rank}(H) = \mathrm{trace}(H) = p.

对称(symmetric)、幂等(idempotent)、迹等于秩等于 $p$ 这三条性质合起来就是「 $H$ 是到 $p$ 维子空间 $\mathrm{col}(X)$ 上的正交投影矩阵」的代数刻画——读者可代入 $H$ 的定义直接验证。残差生成矩阵 $M = I - H$ 满足同样三条且 $MX = 0$ ,从而把 $\mathbb{R}^n$ 正交分解成 $p$ 维拟合子空间 $\mathrm{col}(X)$ 与 $(n - p)$ 维残差子空间 $\mathrm{col}(X)^{\perp}$ 。整段几何论证不依赖任何 Gauss-Markov 假定,纯属投影代数。

4. 一元线性回归的闭式解与数值例

取 $p = 2$ 、 $X = [\mathbf{1}, x]$ 。正规方程退化成两个标量方程,解出:

\hat{\beta}_1 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i - \bar{x})^2}, \qquad \hat{\beta}_0 = \bar{y} - \hat{\beta}_1\,\bar{x}.

用何晓群《现代统计分析方法与应用》的离差记号写成 $\hat{\beta}_1 = L_{xy} / L_{xx}$ ,其中 $L_{xy} = S_{xy} = \sum (x_i - \bar{x})(y_i - \bar{y})$ , $L_{xx} = S_{xx} = \sum (x_i - \bar{x})^2$ ;同一个量也是样本协方差除以样本方差 $\widehat{\mathrm{Cov}}(x, y) / \widehat{\mathrm{Var}}(x)$ ,即模块 2.1.2 二元正态条件均值斜率的样本版本。拟合直线必过中心点 $(\bar{x}, \bar{y})$ 。

数值例:取 $n = 5$ 组数据 $(x_i, y_i) = (1, 2), (2, 3), (3, 5), (4, 4), (5, 6)$ 。直接算 $\bar{x} = 3$ 、 $\bar{y} = 4$ ; $L_{xx} = 4 + 1 + 0 + 1 + 4 = 10$ ; $L_{xy} = (-2)(-2) + (-1)(-1) + 0 \cdot 1 + 1 \cdot 0 + 2 \cdot 2 = 9$ 。代入 $\hat{\beta}_1 = 9/10 = 0.9$ , $\hat{\beta}_0 = 4 - 0.9 \times 3 = 1.3$ 。拟合直线 $\hat{y} = 1.3 + 0.9 x$ 。下面这个 FormulaExplorer 让你拉动 $\beta_0$ 与 $\beta_1$ 的滑块,看拟合直线如何在散点云中摆动:

Formula Explorer

beta_0 + beta_1 * x

5. 平方和分解与决定系数

把 $y - \bar{y}\mathbf{1}$ 拆成 $(\hat{y} - \bar{y}\mathbf{1}) + (y - \hat{y})$ 。当模型含截距时, $\mathbf{1} \in \mathrm{col}(X)$ ,残差 $e$ 与 $\mathrm{col}(X)$ 正交、自然也与 $\mathbf{1}$ 正交,所以 $\hat{y} - \bar{y}\mathbf{1}$ 与 $e$ 互为正交。直接取长度平方,交叉项消失,得平方和分解公式 SST = SSR + SSE:

\mathrm{TSS} = \mathrm{ESS} + \mathrm{RSS}, \qquad R^2 = 1 - \frac{\mathrm{RSS}}{\mathrm{TSS}} = \frac{\mathrm{ESS}}{\mathrm{TSS}}.

其中 $\mathrm{TSS} = \sum (y_i - \bar{y})^2$ 是总平方和, $\mathrm{ESS} = \sum (\hat{y}_i - \bar{y})^2$ 是回归平方和, $\mathrm{RSS} = \sum e_i^2$ 是残差平方和。决定系数 $R^2 \in [0, 1]$ 衡量响应方差中被模型解释的比例。一句警告: $R^2$ 在 $X$ 中添加任意一列时机械性地不会下降——所以「调整 $R^2$ 」是标准修正,完整定义放到下一节,这里先记住「裸 $R^2$ 不能用来比较参数数量不同的模型」。对一元线性回归,有恒等式 $R^2 = r_{xy}^2$ , $r_{xy}$ 为样本 Pearson 相关系数。

最后一条务必记住:本课所有内容都是条件期望 $E[Y \mid X = x] = x^\top \beta$ 的代数,它讲的是关联,不是因果;把回归系数解读成「 $x_j$ 上升一单位时的因果效应」是计量经济学课程的工作,本模块不做这件事。数值求解层面,当 $X^\top X$ 病态时,实际工程更常用 QR 或奇异值分解(SVD)而非显式求逆——这部分待模块 2.4.1 / 3.2.3 展开。贝叶斯版本的线性回归(共轭先验下 $\beta$ 与 $\sigma^2$ 的后验)是平行的一条路,本课不涉及。

练习

Exercise

考虑一元线性回归模型 $y_i = \beta_0 + \beta_1 x_i + \varepsilon_i$ , $i = 1, \dots, n$ 。(a) 写出设计矩阵 $X$ ,并验证 $X^\top X$ 是 $2 \times 2$ 矩阵。(b) 从正规方程出发,推导 OLS 估计量 $\hat{\beta}_0$ 与 $\hat{\beta}_1$ 。(c) 证明拟合直线必过点 $(\bar{x}, \bar{y})$ 。(d) 证明当模型含截距时,残差之和 $\sum_i e_i = 0$ 。

提示

X^\top X

的四个元素逐一写出:

(1,1)

项是

n

(1,2)

与

(2,1)

项都是

\sum x_i

(2,2)

项是

\sum x_i^2

;再算

X^\top y

的两个分量,正规方程立刻给出

\hat{\beta}_0, \hat{\beta}_1

。

提示

x = \bar{x}

进拟合式

\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 \bar{x}

,用

\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}

化简;(d) 用正规方程

X^\top(y - X\hat{\beta}) = 0

的第一行,它正是

\sum e_i = 0

。

6. 通向下一课

到这里你拿到了一个点估计 $\hat{\beta}_{\mathrm{OLS}}$ ,知道它在几何上是把响应向量投到列空间上,在代数上是正规方程的唯一解。但点估计本身还不够:你既不知道它的抽样分布,也无法回答「这个因子对沪深300 收益的边际贡献是否显著为正」「95% 置信区间多宽」之类的问题。下一节我们将研究 $\hat{\beta}$ 的抽样分布,从而构造系数的置信区间和检验。