周二开盘前 30 分钟,你在一家百亿规模的私募(private fund)接手了今早的因子配置(factor allocation)任务。手头是沪深300 成份股过去 60 个交易日的日收益,以及 4 个候选风格因子——规模、价值、动量、低波——在同期的横截面暴露。你的 PM 只问一句:「把这批个股的今日预期收益,拟合成这 4 个因子的线性组合,残差还剩多少?」翻成几何语言,你要在 R60 这个数据空间里,把一根 60 维的收益向量投影(projection)到 4 维因子张成的子空间上,看剩下那一截能不能用一个新的 alpha 信号解释。本课就回答这件事:什么叫「最优」的投影?它的解长什么样?为什么这个看似单纯的代数练习,是后面所有回归推断、诊断、正则化方法共同的几何根基?
1. 模型与五条经典假定
把上面的问题写成数学。设样本量为 n、参数维数为 p(含截距),响应向量 y∈Rn,设计矩阵(design matrix)X∈Rn×p 的第一列是全 1 向量(对应截距项),系数向量 β∈Rp,误差向量 ε∈Rn。多元线性回归(multiple linear regression)的紧凑形式是:
y=Xβ+ε,E[ε]=0,Cov(ε)=σ2In.
这里 Cov(ε) 是协方差矩阵(covariance matrix)。经典 Gauss-Markov 五条假定依次是:(1) 线性性——条件均值是 Xβ;(2) 零均值误差;(3) 同方差——Var(εi)=σ2 对一切 i;(4) 误差不相关——Cov(εi,εj)=0 当 i=j;(5) 满列秩——rank(X)=p<n。前两条保证 OLS 估计的无偏性;第三、四条决定协方差矩阵的形状,从而支撑下一节的抽样分布;第五条让 X⊤X 可逆,使点估计存在且唯一。正态性(normality)不属于这五条——它是下一节为构造 t/F 检验额外加上的假设。
线性代数小抄(由于模块 2.4.1 尚未排定,本课自带五句提示):列空间 col(X) 是 X 所有列的张成子空间;秩(rank)是其维数;对称正定阵必可逆;转置满足 (AB)⊤=B⊤A⊤、(A−1)⊤=(A⊤)−1;二次型 f(β)=β⊤Aβ−2b⊤β 的梯度为 ∇f=2Aβ−2b。后面只会用到这些。
2. 普通最小二乘估计的推导
普通最小二乘(OLS, ordinary least squares)的目标是最小化残差平方和(residual sum of squares)RSS(β)=∥y−Xβ∥2。展开:
RSS(β)=(y−Xβ)⊤(y−Xβ)=y⊤y−2β⊤X⊤y+β⊤X⊤Xβ.
按梯度的三条规则逐项求导:
- 常数项 y⊤y 对 β 求导为 0;
- 线性项 −2β⊤X⊤y 的梯度为 −2X⊤y;
- 二次型 β⊤X⊤Xβ 的梯度为 2X⊤Xβ(此处 X⊤X 对称)。
合并得 ∇βRSS(β)=−2X⊤y+2X⊤Xβ。令其为零,即得正规方程(normal equations):
X⊤Xβ^=X⊤y,β^OLS=(X⊤X)−1X⊤y.
二阶条件:Hessian 为 2X⊤X,在满列秩假设下严格正定,故 RSS 是严格凸函数,β^OLS 是唯一全局极小点。
3. 几何视角:正交投影与帽子矩阵
把同一答案翻成几何语言——这是现代视角(Hastie-Tibshirani-Friedman 之 ESL 第 3.2 节)的精髓。定义拟合值 y^=Xβ^;它是响应向量 y 到列空间 col(X) 的正交投影(projection),即 col(X) 中欧氏距离意义下离 y 最近的点。残差 e=y−y^ 满足 X⊤e=0——这就是正规方程的等价写法,意思是「残差与设计矩阵的每一列正交」。
把 y↦y^ 这一线性变换记成帽子矩阵(hat matrix)H:
H=X(X⊤X)−1X⊤,H=H⊤,H2=H,rank(H)=trace(H)=p.
对称(symmetric)、幂等(idempotent)、迹等于秩等于 p 这三条性质合起来就是「H 是到 p 维子空间 col(X) 上的正交投影矩阵」的代数刻画——读者可代入 H 的定义直接验证。残差生成矩阵 M=I−H 满足同样三条且 MX=0,从而把 Rn 正交分解成 p 维拟合子空间 col(X) 与 (n−p) 维残差子空间 col(X)⊥。整段几何论证不依赖任何 Gauss-Markov 假定,纯属投影代数。
4. 一元线性回归的闭式解与数值例
取 p=2、X=[1,x]。正规方程退化成两个标量方程,解出:
β^1=∑i=1n(xi−xˉ)2∑i=1n(xi−xˉ)(yi−yˉ),β^0=yˉ−β^1xˉ.
用何晓群《现代统计分析方法与应用》的离差记号写成 β^1=Lxy/Lxx,其中 Lxy=Sxy=∑(xi−xˉ)(yi−yˉ),Lxx=Sxx=∑(xi−xˉ)2;同一个量也是样本协方差除以样本方差 Cov(x,y)/Var(x),即模块 2.1.2 二元正态条件均值斜率的样本版本。拟合直线必过中心点 (xˉ,yˉ)。
数值例:取 n=5 组数据 (xi,yi)=(1,2),(2,3),(3,5),(4,4),(5,6)。直接算 xˉ=3、yˉ=4;Lxx=4+1+0+1+4=10;Lxy=(−2)(−2)+(−1)(−1)+0⋅1+1⋅0+2⋅2=9。代入 β^1=9/10=0.9,β^0=4−0.9×3=1.3。拟合直线 y^=1.3+0.9x。下面这个 FormulaExplorer 让你拉动 β0 与 β1 的滑块,看拟合直线如何在散点云中摆动:
Formula Explorer
beta_0 + beta_1 * x
5. 平方和分解与决定系数
把 y−yˉ1 拆成 (y^−yˉ1)+(y−y^)。当模型含截距时,1∈col(X),残差 e 与 col(X) 正交、自然也与 1 正交,所以 y^−yˉ1 与 e 互为正交。直接取长度平方,交叉项消失,得平方和分解公式 SST = SSR + SSE:
TSS=ESS+RSS,R2=1−TSSRSS=TSSESS.
其中 TSS=∑(yi−yˉ)2 是总平方和,ESS=∑(y^i−yˉ)2 是回归平方和,RSS=∑ei2 是残差平方和。决定系数 R2∈[0,1] 衡量响应方差中被模型解释的比例。一句警告:R2 在 X 中添加任意一列时机械性地不会下降——所以「调整 R2」是标准修正,完整定义放到下一节,这里先记住「裸 R2 不能用来比较参数数量不同的模型」。对一元线性回归,有恒等式 R2=rxy2,rxy 为样本 Pearson 相关系数。
最后一条务必记住:本课所有内容都是条件期望 E[Y∣X=x]=x⊤β 的代数,它讲的是关联,不是因果;把回归系数解读成「xj 上升一单位时的因果效应」是计量经济学课程的工作,本模块不做这件事。数值求解层面,当 X⊤X 病态时,实际工程更常用 QR 或奇异值分解(SVD)而非显式求逆——这部分待模块 2.4.1 / 3.2.3 展开。贝叶斯版本的线性回归(共轭先验下 β 与 σ2 的后验)是平行的一条路,本课不涉及。
练习
Exercise
考虑一元线性回归模型 yi=β0+β1xi+εi,i=1,…,n。(a) 写出设计矩阵 X,并验证 X⊤X 是 2×2 矩阵。(b) 从正规方程出发,推导 OLS 估计量 β^0 与 β^1。(c) 证明拟合直线必过点 (xˉ,yˉ)。(d) 证明当模型含截距时,残差之和 ∑iei=0。
提示
X⊤X 的四个元素逐一写出:
(1,1) 项是
n,
(1,2) 与
(2,1) 项都是
∑xi,
(2,2) 项是
∑xi2;再算
X⊤y 的两个分量,正规方程立刻给出
β^0,β^1。
提示
(c) 直接代
x=xˉ 进拟合式
y^=β^0+β^1xˉ,用
β^0=yˉ−β^1xˉ 化简;(d) 用正规方程
X⊤(y−Xβ^)=0 的第一行,它正是
∑ei=0。
6. 通向下一课
到这里你拿到了一个点估计 β^OLS,知道它在几何上是把响应向量投到列空间上,在代数上是正规方程的唯一解。但点估计本身还不够:你既不知道它的抽样分布,也无法回答「这个因子对沪深300 收益的边际贡献是否显著为正」「95% 置信区间多宽」之类的问题。下一节我们将研究 β^ 的抽样分布,从而构造系数的置信区间和检验。