← 返回模块
2.2.2.2beta 可读 · 未来付费校验通过内容版本 2026-05-25

线性回归的统计推断

2.2.2 · 回归与广义线性模型 · 数学与统计能力

上海某私募的量化研究员在沪深300(CSI 300)成分股的三年日频收益里跑了一支六因子模型,回归表打出来:动量项系数 0.18、t 统计量 3.2,整体显著性 F 统计量 18.4。组合经理盯着她问:「这几个数字,到底说明因子真的有 alpha,还是只是回归噪音被你刚好捞到了?」她手里的工具不能回答这个问题——上一课的 β^=(XX)1Xy\hat\beta = (X^\top X)^{-1} X^\top y 是点估计,没有不确定性。本节要把这只点估计装进一整套​​推断​​(inference)工具:抽样分布、置信区间、t / F 检验。所有结果都建立在一根假设上,散场之前你要看清那根假设到底承担了什么。

一、从点估计到推断:正态线性模型

上一课用到的高斯-马尔可夫(Gauss-Markov)五条假设——线性、零均值、同方差、不相关、列满秩——只够让 β^\hat\beta 成为无偏估计。要构造检验和置信区间,还需要给误差的​​联合分布​​一个完整描述。最经济的做法是再加一条:误差服从多元​​正态分布​​(Gaussian distribution),写成

y=Xβ+ε,εNn(0,σ2In)y = X\beta + \varepsilon, \quad \varepsilon \sim \mathcal{N}_n(0, \sigma^2 I_n)

这就是​​正态线性模型​​(Normal Linear Model, NLM)。两件事现在就要分清:Gauss-Markov 定理的最优性​​不​​依赖正态——它只用到 Cov(ε)=σ2In\mathrm{Cov}(\varepsilon) = \sigma^2 I_n;而 t / F 分布与精确置信区间​​需要​​正态。ε\varepsilon 不正态但 iid、方差有限时,中心极限定理给出 β^\hat\beta 的大样本近似正态——这一句话就是本课对大样本情形的辩护书,具体推证不在此展开。

NLM 还有一个副产品:在这条正态假设下,​​普通最小二乘​​(ordinary least squares, OLS)估计同时是 β\beta 的​​极大似然估计​​(maximum likelihood estimation, MLE)——对 logL\log L 关于 β\beta 求梯度并令零,得到的方程恰好是上一课的​​正规方程​​(normal equations)XXβ^=XyX^\top X \hat\beta = X^\top y。两套估计哲学在 NLM 里合流。

二、β^\hat\beta 的抽样分布

y=Xβ+εy = X\beta + \varepsilon 代回闭式解:

β^=(XX)1Xy=β+(XX)1Xε\hat\beta = (X^\top X)^{-1} X^\top y = \beta + (X^\top X)^{-1} X^\top \varepsilon

这是高斯向量 ε\varepsilon 的一个仿射变换(affine transformation),所以 β^\hat\beta 仍是高斯向量。逐项算:

E[β^]=β+(XX)1XE[ε]=βCov(β^)=(XX)1X(σ2In)X(XX)1=σ2(XX)1\begin{aligned} E[\hat\beta] &= \beta + (X^\top X)^{-1} X^\top E[\varepsilon] = \beta \\ \mathrm{Cov}(\hat\beta) &= (X^\top X)^{-1} X^\top (\sigma^2 I_n) X (X^\top X)^{-1} = \sigma^2 (X^\top X)^{-1} \end{aligned}

合起来即:

β^Np ⁣(β, σ2(XX)1)\hat{\beta} \sim \mathcal{N}_p\!\left(\beta,\ \sigma^2 (X^\top X)^{-1}\right)

请把两件事分清:无偏 E[β^]=βE[\hat\beta] = \beta 只用到 E[ε]=0E[\varepsilon] = 0,​​不​​用正态;联合正态才需要 ε\varepsilon 正态。对角分量给出 Var(β^j)=σ2[(XX)1]jj\mathrm{Var}(\hat\beta_j) = \sigma^2 [(X^\top X)^{-1}]_{jj},后面构造 t 统计量直接调用这一项。

三、Gauss-Markov 定理:OLS 是 BLUE

​陈述​​:在 Gauss-Markov 五条假设下,对任何线性组合 cβc^\top \beta,OLS 给出的 cβ^OLSc^\top \hat\beta_{\mathrm{OLS}} 在所有 yy 的线性无偏估计中方差最小——OLS 是​​最优线性无偏估计​​(Best Linear Unbiased Estimator, BLUE)。重申一遍:这里​​不​​假设 ε\varepsilon 正态,只用到 Cov(ε)=σ2In\mathrm{Cov}(\varepsilon) = \sigma^2 I_n

​证明​​。设 β~=Ay\tilde\beta = A y 是任一线性无偏估计。由 E[β~]=AXβ=βE[\tilde\beta] = A X \beta = \beta 对一切 β\beta 成立,得 AX=IpA X = I_p。把 AA 拆成

A=(XX)1X+D,DX=AXIp=0A = (X^\top X)^{-1} X^\top + D, \quad D X = A X - I_p = 0

计算协方差:

Cov(β~)=ACov(y)A=σ2AA=σ2[(XX)1+DD]\begin{aligned} \mathrm{Cov}(\tilde\beta) &= A \mathrm{Cov}(y) A^\top = \sigma^2 A A^\top \\ &= \sigma^2 \left[ (X^\top X)^{-1} + D D^\top \right] \end{aligned}

其中交叉项 (XX)1XD=0(X^\top X)^{-1} X^\top D^\top = 0,因为 DX=0D X = 0XD=0X^\top D^\top = 0。两项相减:

Cov(β~)Cov(β^OLS)=σ2DD0\mathrm{Cov}(\tilde\beta) - \mathrm{Cov}(\hat\beta_{\mathrm{OLS}}) = \sigma^2 D D^\top \succeq 0

差是半正定矩阵——证毕。这条证明的力量在于:它只用到二阶矩结构,正态分布不必登场。

四、σ2\sigma^2 的无偏估计

σ2\sigma^2 没法直接观测,只能从残差里挤。自然的候选是残差均方

σ^2=RSSnp\hat{\sigma}^2 = \dfrac{\mathrm{RSS}}{n - p}

为什么分母是 npn - p?记 M=InHM = I_n - H 为残差化矩阵(residual-maker matrix),H=X(XX)1XH = X(X^\top X)^{-1} X^\top 是上一课的帽子矩阵。残差 e=My=Mεe = M y = M\varepsilonMX=0M X = 0),故

RSS=ee=εMε\mathrm{RSS} = e^\top e = \varepsilon^\top M \varepsilon

用迹技巧(trace trick):对一般二次型 E[εMε]=trace(MCov(ε))=σ2trace(M)E[\varepsilon^\top M \varepsilon] = \mathrm{trace}(M \cdot \mathrm{Cov}(\varepsilon)) = \sigma^2 \,\mathrm{trace}(M),而 MM 对称幂等、秩为 npn - p,所以 trace(M)=np\mathrm{trace}(M) = n - p。代入:

E[RSS]=σ2(np)    E[σ^2]=σ2E[\mathrm{RSS}] = \sigma^2 (n - p) \implies E[\hat\sigma^2] = \sigma^2

分母 npn - p 正是残差子空间 col(X)\mathrm{col}(X)^\perp 的维度,跟独立同分布样本方差里的 n1n - 1 一脉相承——多减去的 p1p - 1 个自由度,是估计 β\betapp 个分量额外消耗掉的(其中 1 个还给了均值方向)。

五、Cochran 定理:卡方与独立性

加上正态假设,关于二次型有 Cochran 定理一句话概括:​​对高斯向量做正交幂等分解,得到的若干二次型彼此独立、各自服从卡方分布,自由度等于对应幂等矩阵的秩​​。完整证明涉及二次型的谱分解,参见 Casella & Berger 第 5.3 节。本课直接用两条推论:

(i)MM 对称幂等、秩 npn - p,故

(np)σ^2σ2χnp2\dfrac{(n - p)\,\hat{\sigma}^2}{\sigma^2} \sim \chi^2_{n - p}

(ii)HyH yMyM y 在联合正态下不相关(Cov(Hy,My)=σ2HM=0\mathrm{Cov}(H y, M y) = \sigma^2 H M = 0,因 HM=0H M = 0),故二者独立;而 β^\hat\beta 只通过 HyH y 依赖 yyσ^2\hat\sigma^2 只通过 MyM y 依赖 yy,所以 ​​β^\hat\betaσ^2\hat\sigma^2 独立​​。这是下一节构造 t 分布的钥匙。

六、单系数的 t 检验与置信区间

把三件零件——β^j\hat\beta_j 的边际正态、σ^2\hat\sigma^2 的卡方、二者独立——按 t 分布的标准构造拼起来:分子是 β^j\hat\beta_j 中心化后除以真标准差所得的 N(0,1)\mathcal{N}(0, 1),分母是与之独立的 χnp2/(np)\sqrt{\chi^2_{n-p}/(n-p)}。比值即

tj=β^jβj,0SE(β^j)tnpt_j = \dfrac{\hat{\beta}_j - \beta_{j,0}}{\mathrm{SE}(\hat{\beta}_j)} \sim t_{n - p}

其中标准误差

SE(β^j)=σ^[(XX)1]jj\mathrm{SE}(\hat{\beta}_j) = \hat{\sigma}\sqrt{[(X^\top X)^{-1}]_{jj}}

双侧 α\alpha 水平的检验:拒绝 H0:βj=βj,0H_0: \beta_j = \beta_{j,0} 当且仅当 tj>tnp,α/2|t_j| > t_{n - p,\,\alpha/2}。由置信区间-检验对偶(CI-test duality,模块 2.2.1 已铺垫)得到 1α1 - \alpha 置信区间

β^j±tnp,α/2SE(β^j)\hat{\beta}_j \pm t_{n - p,\,\alpha/2}\,\mathrm{SE}(\hat{\beta}_j)

下面的滑块把 t 统计量看作 β^β0\hat\beta - \beta_0 这一缺口的线性函数(固定 SE),帮助你直观感受「系数离零越远、t 越大」这件事:

Formula Explorer

(beta_hat - beta_0) / se

七、嵌套模型的 F 检验与调整 R2R^2

更一般的问题:同时检验 qq 个线性约束——例如「这 qq 个回归量同时为零」。全模型设计矩阵 XXpp 列,约束模型 X0X_0pqp - q 列。记两份残差平方和为 RSSfull\mathrm{RSS}_{\mathrm{full}}RSSreduced\mathrm{RSS}_{\mathrm{reduced}}。在零假设(约束成立)下:

F=(RSSreducedRSSfull)/qRSSfull/(np)Fq,npF = \dfrac{(\mathrm{RSS}_{\mathrm{reduced}} - \mathrm{RSS}_{\mathrm{full}}) / q}{\mathrm{RSS}_{\mathrm{full}} / (n - p)} \sim F_{q,\,n - p}

分子的几何意义:把 qq 个方向从残差子空间里抠掉,RSS 必然上升,上升量是 qq 维方向上的额外平方损失。α\alpha 水平上单侧拒绝当且仅当 F>Fq,np,αF > F_{q,\,n - p,\,\alpha}

​特例 1​​(整体显著性 F 检验):约束模型只含截距,q=p1q = p - 1。F 统计量有等价写法

F=R2/(p1)(1R2)/(np)F = \dfrac{R^2 / (p - 1)}{(1 - R^2) / (n - p)}

这是回归表里那一行「F-statistic」的来源。​​特例 2​​(q=1q = 1):单系数 F 检验,与对应的双侧 t 检验完全等价,关系式

F=tj2F = t_j^2

学过一次即可,以后不必重证。

最后是 R2R^2 的修正版。R2R^2 随回归量数量​​单调不降​​——把噪音列拼进 XX 也不会让 RSS 变大,因为简化模型是全模型的特例。​​调整 R2R^2​​​(adjusted R2R^2)在分子分母上各扣自由度:

Radj2=1RSS/(np)TSS/(n1)R^2_{\mathrm{adj}} = 1 - \dfrac{\mathrm{RSS}/(n - p)}{\mathrm{TSS}/(n - 1)}

加入纯噪音列会让 RSS/(np)\mathrm{RSS}/(n - p) 上升(RSS 几乎不降,但 npn - p 减小),从而把 Radj2R^2_{\mathrm{adj}} 拉下来。这才是「加列是否真带信息」的可比指标。

关于稳健性的几点边角,本课不展开:贝叶斯线性回归在 (β,σ2)(\beta, \sigma^2) 上用共轭 normal-inverse-gamma 先验,给出后验区间,叙述路径与本课平行;异方差稳健 SE(Huber-White / sandwich estimator)在 Cov(ε)σ2In\mathrm{Cov}(\varepsilon) \neq \sigma^2 I_n 时替换 σ^2[(XX)1]jj\hat\sigma^2 [(X^\top X)^{-1}]_{jj},下一课处理;Wald、似然比、score 三类检验是 F 检验的非线性约束推广,F 检验本身就是 NLM 里对线性约束的 Wald 检验;系数表上多重检验校正(Bonferroni、Holm、BH)属于模块 2.6 / ML 实验设计的范畴。

八、练习

Exercise

假设你对 n = 50 个观测、p = 4 个回归量(含截距)拟合多元线性回归,得到 β^2=1.25\hat\beta_2 = 1.25[(XX)1]22=0.04[(X^\top X)^{-1}]_{22} = 0.04、RSS = 184。(a)计算 σ^2\hat\sigma^2SE(β^2)\mathrm{SE}(\hat\beta_2)。(b)计算 H0:β2=0H_0: \beta_2 = 0 的 t 统计量,并按双侧 0.05 显著性水平给出结论(取 t46,0.0252.013t_{46,\,0.025} \approx 2.013)。(c)给出 β2\beta_2 的 95% 置信区间。(d)你又拟合一个去掉与 β2\beta_2 对应回归量的简化模型,得到 RSSreduced=199\mathrm{RSS}_{\mathrm{reduced}} = 199,计算两模型的 F 统计量并验证 F=t2F = t^2 这一等价关系。

提示
先从 np=46n - p = 46 出发算 σ^2=RSS/(np)\hat\sigma^2 = \mathrm{RSS}/(n-p),再用 SE(β^2)=σ^0.04\mathrm{SE}(\hat\beta_2) = \hat\sigma\sqrt{0.04}。t 统计量就是 β^2\hat\beta_2 除以 SE。置信区间套 β^2±2.013SE\hat\beta_2 \pm 2.013 \cdot \mathrm{SE} 即可。
提示
(d)中 q=1q = 1:F 统计量分子是 RSSredRSSfull\mathrm{RSS}_{\mathrm{red}} - \mathrm{RSS}_{\mathrm{full}} 除以 1,分母是 σ^2=RSSfull/(np)\hat\sigma^2 = \mathrm{RSS}_{\mathrm{full}}/(n-p)。验证 F=tj2F = t_j^2 时把两边各自代入数值对照即可。

九、通往下一节

到这里你已经能在 NLM 下把任何一行回归系数表读成「点估计 + SE + t + p 值 + 95% 置信区间」,把任何一对嵌套模型读成一次 F 检验。但这些数字默认了正态、同方差、不相关、列满秩——任何一条被现实数据违反,t 与 F 的零分布就开始失真。下一节展开模型假设的诊断和正则化方法:残差图与 QQ 图检视分布、杠杆 hiih_{ii} 与 Cook 距离揪出异常观测、方差膨胀因子(VIF)量化共线性,以及岭回归(ridge)与 Lasso 处理列近似共线时的方差爆炸。处理实际数据中的常见违背,正是把今天这套精致推断武器装上实战支架的过程。