← 返回模块
2.2.2.1beta 可读 · 未来免费校验通过内容版本 2026-05-25

线性回归:最小二乘法与几何视角

2.2.2 · 回归与广义线性模型 · 数学与统计能力

周二开盘前 30 分钟,你在一家百亿规模的私募(private fund)接手了今早的因子配置(factor allocation)任务。手头是沪深300 成份股过去 60 个交易日的日收益,以及 4 个候选风格因子——规模、价值、动量、低波——在同期的横截面暴露。你的 PM 只问一句:「把这批个股的今日预期收益,拟合成这 4 个因子的线性组合,残差还剩多少?」翻成几何语言,你要在 R60\mathbb{R}^{60} 这个数据空间里,把一根 60 维的收益向量投影(projection)到 4 维因子张成的子空间上,看剩下那一截能不能用一个新的 alpha 信号解释。本课就回答这件事:什么叫「最优」的投影?它的解长什么样?为什么这个看似单纯的代数练习,是后面所有回归推断、诊断、正则化方法共同的几何根基?

1. 模型与五条经典假定

把上面的问题写成数学。设样本量为 nn、参数维数为 pp(含截距),响应向量 yRny \in \mathbb{R}^n,设计矩阵(design matrix)XRn×pX \in \mathbb{R}^{n \times p} 的第一列是全 1 向量(对应截距项),系数向量 βRp\beta \in \mathbb{R}^p,误差向量 εRn\varepsilon \in \mathbb{R}^n。多元线性回归(multiple linear regression)的紧凑形式是:

y=Xβ+ε,E[ε]=0,Cov(ε)=σ2In.y = X\beta + \varepsilon, \quad E[\varepsilon] = 0, \quad \mathrm{Cov}(\varepsilon) = \sigma^2 I_n.

这里 Cov(ε)\mathrm{Cov}(\varepsilon) 是协方差矩阵(covariance matrix)。经典 Gauss-Markov 五条假定依次是:(1) 线性性——条件均值是 XβX\beta;(2) 零均值误差;(3) 同方差——Var(εi)=σ2\mathrm{Var}(\varepsilon_i) = \sigma^2 对一切 ii;(4) 误差不相关——Cov(εi,εj)=0\mathrm{Cov}(\varepsilon_i, \varepsilon_j) = 0iji \neq j;(5) 满列秩——rank(X)=p<n\mathrm{rank}(X) = p < n。前两条保证 OLS 估计的无偏性;第三、四条决定协方差矩阵的形状,从而支撑下一节的抽样分布;第五条让 XXX^\top X 可逆,使点估计存在且唯一。正态性(normality)​​不属于​​这五条——它是下一节为构造 tt/FF 检验额外加上的假设。

​线性代数小抄​​(由于模块 2.4.1 尚未排定,本课自带五句提示):列空间 col(X)\mathrm{col}(X)XX 所有列的张成子空间;秩(rank)是其维数;对称正定阵必可逆;转置满足 (AB)=BA(AB)^\top = B^\top A^\top(A1)=(A)1(A^{-1})^\top = (A^\top)^{-1};二次型 f(β)=βAβ2bβf(\beta) = \beta^\top A \beta - 2 b^\top \beta 的梯度为 f=2Aβ2b\nabla f = 2 A \beta - 2 b。后面只会用到这些。

2. 普通最小二乘估计的推导

普通最小二乘(OLS, ordinary least squares)的目标是最小化残差平方和(residual sum of squares)RSS(β)=yXβ2\mathrm{RSS}(\beta) = \|y - X\beta\|^2。展开:

RSS(β)=(yXβ)(yXβ)=yy2βXy+βXXβ.\mathrm{RSS}(\beta) = (y - X\beta)^\top (y - X\beta) = y^\top y - 2 \beta^\top X^\top y + \beta^\top X^\top X \beta.

按梯度的三条规则逐项求导:

  1. 常数项 yyy^\top yβ\beta 求导为 00;
  2. 线性项 2βXy-2 \beta^\top X^\top y 的梯度为 2Xy-2 X^\top y;
  3. 二次型 βXXβ\beta^\top X^\top X \beta 的梯度为 2XXβ2 X^\top X \beta(此处 XXX^\top X 对称)。

合并得 βRSS(β)=2Xy+2XXβ\nabla_\beta \mathrm{RSS}(\beta) = -2 X^\top y + 2 X^\top X \beta。令其为零,即得正规方程(normal equations):

XXβ^=Xy,β^OLS=(XX)1Xy.X^\top X\,\hat{\beta} = X^\top y, \qquad \hat{\beta}_{\mathrm{OLS}} = (X^\top X)^{-1} X^\top y.

二阶条件:Hessian 为 2XX2 X^\top X,在满列秩假设下严格正定,故 RSS\mathrm{RSS} 是严格凸函数,β^OLS\hat{\beta}_{\mathrm{OLS}} 是唯一全局极小点。

3. 几何视角:正交投影与帽子矩阵

把同一答案翻成几何语言——这是现代视角(Hastie-Tibshirani-Friedman 之 ESL 第 3.2 节)的精髓。定义拟合值 y^=Xβ^\hat{y} = X \hat{\beta};它是响应向量 yy 到列空间 col(X)\mathrm{col}(X) 的正交投影(projection),即 col(X)\mathrm{col}(X) 中欧氏距离意义下离 yy 最近的点。残差 e=yy^e = y - \hat{y} 满足 Xe=0X^\top e = 0——这就是正规方程的等价写法,意思是「残差与设计矩阵的每一列正交」。

yy^y \mapsto \hat{y} 这一线性变换记成帽子矩阵(hat matrix)HH:

H=X(XX)1X,H=H,H2=H,rank(H)=trace(H)=p.H = X(X^\top X)^{-1} X^\top, \quad H = H^\top, \quad H^2 = H, \quad \mathrm{rank}(H) = \mathrm{trace}(H) = p.

对称(symmetric)、幂等(idempotent)、迹等于秩等于 pp 这三条性质合起来就是「HH 是到 pp 维子空间 col(X)\mathrm{col}(X) 上的正交投影矩阵」的代数刻画——读者可代入 HH 的定义直接验证。残差生成矩阵 M=IHM = I - H 满足同样三条且 MX=0MX = 0,从而把 Rn\mathbb{R}^n 正交分解成 pp 维拟合子空间 col(X)\mathrm{col}(X)(np)(n - p) 维残差子空间 col(X)\mathrm{col}(X)^{\perp}。整段几何论证​​不依赖​​任何 Gauss-Markov 假定,纯属投影代数。

4. 一元线性回归的闭式解与数值例

p=2p = 2X=[1,x]X = [\mathbf{1}, x]。正规方程退化成两个标量方程,解出:

β^1=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2,β^0=yˉβ^1xˉ.\hat{\beta}_1 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i - \bar{x})^2}, \qquad \hat{\beta}_0 = \bar{y} - \hat{\beta}_1\,\bar{x}.

用何晓群《现代统计分析方法与应用》的离差记号写成 β^1=Lxy/Lxx\hat{\beta}_1 = L_{xy} / L_{xx},其中 Lxy=Sxy=(xixˉ)(yiyˉ)L_{xy} = S_{xy} = \sum (x_i - \bar{x})(y_i - \bar{y}),Lxx=Sxx=(xixˉ)2L_{xx} = S_{xx} = \sum (x_i - \bar{x})^2;同一个量也是样本协方差除以样本方差 Cov^(x,y)/Var^(x)\widehat{\mathrm{Cov}}(x, y) / \widehat{\mathrm{Var}}(x),即模块 2.1.2 二元正态条件均值斜率的样本版本。拟合直线必过中心点 (xˉ,yˉ)(\bar{x}, \bar{y})

​数值例​​:取 n=5n = 5 组数据 (xi,yi)=(1,2),(2,3),(3,5),(4,4),(5,6)(x_i, y_i) = (1, 2), (2, 3), (3, 5), (4, 4), (5, 6)。直接算 xˉ=3\bar{x} = 3yˉ=4\bar{y} = 4;Lxx=4+1+0+1+4=10L_{xx} = 4 + 1 + 0 + 1 + 4 = 10;Lxy=(2)(2)+(1)(1)+01+10+22=9L_{xy} = (-2)(-2) + (-1)(-1) + 0 \cdot 1 + 1 \cdot 0 + 2 \cdot 2 = 9。代入 β^1=9/10=0.9\hat{\beta}_1 = 9/10 = 0.9,β^0=40.9×3=1.3\hat{\beta}_0 = 4 - 0.9 \times 3 = 1.3。拟合直线 y^=1.3+0.9x\hat{y} = 1.3 + 0.9 x。下面这个 FormulaExplorer 让你拉动 β0\beta_0β1\beta_1 的滑块,看拟合直线如何在散点云中摆动:

Formula Explorer

beta_0 + beta_1 * x

5. 平方和分解与决定系数

yyˉ1y - \bar{y}\mathbf{1} 拆成 (y^yˉ1)+(yy^)(\hat{y} - \bar{y}\mathbf{1}) + (y - \hat{y})。当模型含截距时,1col(X)\mathbf{1} \in \mathrm{col}(X),残差 eecol(X)\mathrm{col}(X) 正交、自然也与 1\mathbf{1} 正交,所以 y^yˉ1\hat{y} - \bar{y}\mathbf{1}ee 互为正交。直接取长度平方,交叉项消失,得平方和分解公式 SST = SSR + SSE:

TSS=ESS+RSS,R2=1RSSTSS=ESSTSS.\mathrm{TSS} = \mathrm{ESS} + \mathrm{RSS}, \qquad R^2 = 1 - \frac{\mathrm{RSS}}{\mathrm{TSS}} = \frac{\mathrm{ESS}}{\mathrm{TSS}}.

其中 TSS=(yiyˉ)2\mathrm{TSS} = \sum (y_i - \bar{y})^2 是总平方和,ESS=(y^iyˉ)2\mathrm{ESS} = \sum (\hat{y}_i - \bar{y})^2 是回归平方和,RSS=ei2\mathrm{RSS} = \sum e_i^2 是残差平方和。决定系数 R2[0,1]R^2 \in [0, 1] 衡量响应方差中被模型解释的比例。一句警告:R2R^2XX 中添加任意一列时​​机械性​​地不会下降——所以「调整 R2R^2」是标准修正,完整定义放到下一节,这里先记住「裸 R2R^2 不能用来比较参数数量不同的模型」。对一元线性回归,有恒等式 R2=rxy2R^2 = r_{xy}^2,rxyr_{xy} 为样本 Pearson 相关系数。

最后一条务必记住:本课所有内容都是条件期望 E[YX=x]=xβE[Y \mid X = x] = x^\top \beta 的代数,它讲的是​​关联​​,不是​​因果​​;把回归系数解读成「xjx_j 上升一单位时的因果效应」是计量经济学课程的工作,本模块不做这件事。数值求解层面,当 XXX^\top X 病态时,实际工程更常用 QR 或奇异值分解(SVD)而非显式求逆——这部分待模块 2.4.1 / 3.2.3 展开。贝叶斯版本的线性回归(共轭先验下 β\betaσ2\sigma^2 的后验)是平行的一条路,本课不涉及。

练习

Exercise

考虑一元线性回归模型 yi=β0+β1xi+εiy_i = \beta_0 + \beta_1 x_i + \varepsilon_i,i=1,,ni = 1, \dots, n。(a) 写出设计矩阵 XX,并验证 XXX^\top X2×22 \times 2 矩阵。(b) 从正规方程出发,推导 OLS 估计量 β^0\hat{\beta}_0β^1\hat{\beta}_1。(c) 证明拟合直线必过点 (xˉ,yˉ)(\bar{x}, \bar{y})。(d) 证明当模型含截距时,残差之和 iei=0\sum_i e_i = 0

提示
XXX^\top X 的四个元素逐一写出:(1,1)(1,1) 项是 nn,(1,2)(1,2)(2,1)(2,1) 项都是 xi\sum x_i,(2,2)(2,2) 项是 xi2\sum x_i^2;再算 XyX^\top y 的两个分量,正规方程立刻给出 β^0,β^1\hat{\beta}_0, \hat{\beta}_1
提示
(c) 直接代 x=xˉx = \bar{x} 进拟合式 y^=β^0+β^1xˉ\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 \bar{x},用 β^0=yˉβ^1xˉ\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} 化简;(d) 用正规方程 X(yXβ^)=0X^\top(y - X\hat{\beta}) = 0 的第一行,它正是 ei=0\sum e_i = 0

6. 通向下一课

到这里你拿到了一个点估计 β^OLS\hat{\beta}_{\mathrm{OLS}},知道它在几何上是把响应向量投到列空间上,在代数上是正规方程的唯一解。但点估计本身还不够:你既不知道它的抽样分布,也无法回答「这个因子对沪深300 收益的边际贡献是否显著为正」「95% 置信区间多宽」之类的问题。下一节我们将研究 β^\hat{\beta} 的抽样分布,从而构造系数的置信区间和检验。