上海某私募的量化研究员在沪深300(CSI 300)成分股的三年日频收益里跑了一支六因子模型,回归表打出来:动量项系数 0.18、t 统计量 3.2,整体显著性 F 统计量 18.4。组合经理盯着她问:「这几个数字,到底说明因子真的有 alpha,还是只是回归噪音被你刚好捞到了?」她手里的工具不能回答这个问题——上一课的 β ^ = ( X ⊤ X ) − 1 X ⊤ y \hat\beta = (X^\top X)^{-1} X^\top y β ^ = ( X ⊤ X ) − 1 X ⊤ y 是点估计,没有不确定性。本节要把这只点估计装进一整套推断 (inference)工具:抽样分布、置信区间、t / F 检验。所有结果都建立在一根假设上,散场之前你要看清那根假设到底承担了什么。
一、从点估计到推断:正态线性模型
上一课用到的高斯-马尔可夫(Gauss-Markov)五条假设——线性、零均值、同方差、不相关、列满秩——只够让 β ^ \hat\beta β ^ 成为无偏估计。要构造检验和置信区间,还需要给误差的联合分布 一个完整描述。最经济的做法是再加一条:误差服从多元正态分布 (Gaussian distribution),写成
y = X β + ε , ε ∼ N n ( 0 , σ 2 I n ) y = X\beta + \varepsilon, \quad \varepsilon \sim \mathcal{N}_n(0, \sigma^2 I_n) y = X β + ε , ε ∼ N n ( 0 , σ 2 I n )
这就是正态线性模型 (Normal Linear Model, NLM)。两件事现在就要分清:Gauss-Markov 定理的最优性不 依赖正态——它只用到 C o v ( ε ) = σ 2 I n \mathrm{Cov}(\varepsilon) = \sigma^2 I_n Cov ( ε ) = σ 2 I n ;而 t / F 分布与精确置信区间需要 正态。ε \varepsilon ε 不正态但 iid、方差有限时,中心极限定理给出 β ^ \hat\beta β ^ 的大样本近似正态——这一句话就是本课对大样本情形的辩护书,具体推证不在此展开。
NLM 还有一个副产品:在这条正态假设下,普通最小二乘 (ordinary least squares, OLS)估计同时是 β \beta β 的极大似然估计 (maximum likelihood estimation, MLE)——对 log L \log L log L 关于 β \beta β 求梯度并令零,得到的方程恰好是上一课的正规方程 (normal equations)X ⊤ X β ^ = X ⊤ y X^\top X \hat\beta = X^\top y X ⊤ X β ^ = X ⊤ y 。两套估计哲学在 NLM 里合流。
二、β ^ \hat\beta β ^ 的抽样分布
把 y = X β + ε y = X\beta + \varepsilon y = X β + ε 代回闭式解:
β ^ = ( X ⊤ X ) − 1 X ⊤ y = β + ( X ⊤ X ) − 1 X ⊤ ε \hat\beta = (X^\top X)^{-1} X^\top y = \beta + (X^\top X)^{-1} X^\top \varepsilon β ^ = ( X ⊤ X ) − 1 X ⊤ y = β + ( X ⊤ X ) − 1 X ⊤ ε
这是高斯向量 ε \varepsilon ε 的一个仿射变换(affine transformation),所以 β ^ \hat\beta β ^ 仍是高斯向量。逐项算:
E [ β ^ ] = β + ( X ⊤ X ) − 1 X ⊤ E [ ε ] = β C o v ( β ^ ) = ( X ⊤ X ) − 1 X ⊤ ( σ 2 I n ) X ( X ⊤ X ) − 1 = σ 2 ( X ⊤ X ) − 1 \begin{aligned}
E[\hat\beta] &= \beta + (X^\top X)^{-1} X^\top E[\varepsilon] = \beta \\
\mathrm{Cov}(\hat\beta) &= (X^\top X)^{-1} X^\top (\sigma^2 I_n) X (X^\top X)^{-1} = \sigma^2 (X^\top X)^{-1}
\end{aligned} E [ β ^ ] Cov ( β ^ ) = β + ( X ⊤ X ) − 1 X ⊤ E [ ε ] = β = ( X ⊤ X ) − 1 X ⊤ ( σ 2 I n ) X ( X ⊤ X ) − 1 = σ 2 ( X ⊤ X ) − 1
合起来即:
β ^ ∼ N p ( β , σ 2 ( X ⊤ X ) − 1 ) \hat{\beta} \sim \mathcal{N}_p\!\left(\beta,\ \sigma^2 (X^\top X)^{-1}\right) β ^ ∼ N p ( β , σ 2 ( X ⊤ X ) − 1 )
请把两件事分清:无偏 E [ β ^ ] = β E[\hat\beta] = \beta E [ β ^ ] = β 只用到 E [ ε ] = 0 E[\varepsilon] = 0 E [ ε ] = 0 ,不 用正态;联合正态才需要 ε \varepsilon ε 正态。对角分量给出 V a r ( β ^ j ) = σ 2 [ ( X ⊤ X ) − 1 ] j j \mathrm{Var}(\hat\beta_j) = \sigma^2 [(X^\top X)^{-1}]_{jj} Var ( β ^ j ) = σ 2 [( X ⊤ X ) − 1 ] j j ,后面构造 t 统计量直接调用这一项。
三、Gauss-Markov 定理:OLS 是 BLUE
陈述 :在 Gauss-Markov 五条假设下,对任何线性组合 c ⊤ β c^\top \beta c ⊤ β ,OLS 给出的 c ⊤ β ^ O L S c^\top \hat\beta_{\mathrm{OLS}} c ⊤ β ^ OLS 在所有 y y y 的线性无偏估计中方差最小——OLS 是最优线性无偏估计 (Best Linear Unbiased Estimator, BLUE)。重申一遍:这里不 假设 ε \varepsilon ε 正态,只用到 C o v ( ε ) = σ 2 I n \mathrm{Cov}(\varepsilon) = \sigma^2 I_n Cov ( ε ) = σ 2 I n 。
证明 。设 β ~ = A y \tilde\beta = A y β ~ = A y 是任一线性无偏估计。由 E [ β ~ ] = A X β = β E[\tilde\beta] = A X \beta = \beta E [ β ~ ] = A X β = β 对一切 β \beta β 成立,得 A X = I p A X = I_p A X = I p 。把 A A A 拆成
A = ( X ⊤ X ) − 1 X ⊤ + D , D X = A X − I p = 0 A = (X^\top X)^{-1} X^\top + D, \quad D X = A X - I_p = 0 A = ( X ⊤ X ) − 1 X ⊤ + D , D X = A X − I p = 0
计算协方差:
C o v ( β ~ ) = A C o v ( y ) A ⊤ = σ 2 A A ⊤ = σ 2 [ ( X ⊤ X ) − 1 + D D ⊤ ] \begin{aligned}
\mathrm{Cov}(\tilde\beta) &= A \mathrm{Cov}(y) A^\top = \sigma^2 A A^\top \\
&= \sigma^2 \left[ (X^\top X)^{-1} + D D^\top \right]
\end{aligned} Cov ( β ~ ) = A Cov ( y ) A ⊤ = σ 2 A A ⊤ = σ 2 [ ( X ⊤ X ) − 1 + D D ⊤ ]
其中交叉项 ( X ⊤ X ) − 1 X ⊤ D ⊤ = 0 (X^\top X)^{-1} X^\top D^\top = 0 ( X ⊤ X ) − 1 X ⊤ D ⊤ = 0 ,因为 D X = 0 D X = 0 D X = 0 即 X ⊤ D ⊤ = 0 X^\top D^\top = 0 X ⊤ D ⊤ = 0 。两项相减:
C o v ( β ~ ) − C o v ( β ^ O L S ) = σ 2 D D ⊤ ⪰ 0 \mathrm{Cov}(\tilde\beta) - \mathrm{Cov}(\hat\beta_{\mathrm{OLS}}) = \sigma^2 D D^\top \succeq 0 Cov ( β ~ ) − Cov ( β ^ OLS ) = σ 2 D D ⊤ ⪰ 0
差是半正定矩阵——证毕。这条证明的力量在于:它只用到二阶矩结构,正态分布不必登场。
四、σ 2 \sigma^2 σ 2 的无偏估计
σ 2 \sigma^2 σ 2 没法直接观测,只能从残差里挤。自然的候选是残差均方
σ ^ 2 = R S S n − p \hat{\sigma}^2 = \dfrac{\mathrm{RSS}}{n - p} σ ^ 2 = n − p RSS
为什么分母是 n − p n - p n − p ?记 M = I n − H M = I_n - H M = I n − H 为残差化矩阵(residual-maker matrix),H = X ( X ⊤ X ) − 1 X ⊤ H = X(X^\top X)^{-1} X^\top H = X ( X ⊤ X ) − 1 X ⊤ 是上一课的帽子矩阵。残差 e = M y = M ε e = M y = M\varepsilon e = M y = M ε (M X = 0 M X = 0 M X = 0 ),故
R S S = e ⊤ e = ε ⊤ M ε \mathrm{RSS} = e^\top e = \varepsilon^\top M \varepsilon RSS = e ⊤ e = ε ⊤ M ε
用迹技巧(trace trick):对一般二次型 E [ ε ⊤ M ε ] = t r a c e ( M ⋅ C o v ( ε ) ) = σ 2 t r a c e ( M ) E[\varepsilon^\top M \varepsilon] = \mathrm{trace}(M \cdot \mathrm{Cov}(\varepsilon)) = \sigma^2 \,\mathrm{trace}(M) E [ ε ⊤ M ε ] = trace ( M ⋅ Cov ( ε )) = σ 2 trace ( M ) ,而 M M M 对称幂等、秩为 n − p n - p n − p ,所以 t r a c e ( M ) = n − p \mathrm{trace}(M) = n - p trace ( M ) = n − p 。代入:
E [ R S S ] = σ 2 ( n − p ) ⟹ E [ σ ^ 2 ] = σ 2 E[\mathrm{RSS}] = \sigma^2 (n - p) \implies E[\hat\sigma^2] = \sigma^2 E [ RSS ] = σ 2 ( n − p ) ⟹ E [ σ ^ 2 ] = σ 2
分母 n − p n - p n − p 正是残差子空间 c o l ( X ) ⊥ \mathrm{col}(X)^\perp col ( X ) ⊥ 的维度,跟独立同分布样本方差里的 n − 1 n - 1 n − 1 一脉相承——多减去的 p − 1 p - 1 p − 1 个自由度,是估计 β \beta β 的 p p p 个分量额外消耗掉的(其中 1 个还给了均值方向)。
五、Cochran 定理:卡方与独立性
加上正态假设,关于二次型有 Cochran 定理一句话概括:对高斯向量做正交幂等分解,得到的若干二次型彼此独立、各自服从卡方分布,自由度等于对应幂等矩阵的秩 。完整证明涉及二次型的谱分解,参见 Casella & Berger 第 5.3 节。本课直接用两条推论:
(i)M M M 对称幂等、秩 n − p n - p n − p ,故
( n − p ) σ ^ 2 σ 2 ∼ χ n − p 2 \dfrac{(n - p)\,\hat{\sigma}^2}{\sigma^2} \sim \chi^2_{n - p} σ 2 ( n − p ) σ ^ 2 ∼ χ n − p 2
(ii)H y H y H y 与 M y M y M y 在联合正态下不相关(C o v ( H y , M y ) = σ 2 H M = 0 \mathrm{Cov}(H y, M y) = \sigma^2 H M = 0 Cov ( H y , M y ) = σ 2 H M = 0 ,因 H M = 0 H M = 0 H M = 0 ),故二者独立;而 β ^ \hat\beta β ^ 只通过 H y H y H y 依赖 y y y ,σ ^ 2 \hat\sigma^2 σ ^ 2 只通过 M y M y M y 依赖 y y y ,所以 β ^ \hat\beta β ^ 与 σ ^ 2 \hat\sigma^2 σ ^ 2 独立 。这是下一节构造 t 分布的钥匙。
六、单系数的 t 检验与置信区间
把三件零件——β ^ j \hat\beta_j β ^ j 的边际正态、σ ^ 2 \hat\sigma^2 σ ^ 2 的卡方、二者独立——按 t 分布的标准构造拼起来:分子是 β ^ j \hat\beta_j β ^ j 中心化后除以真标准差所得的 N ( 0 , 1 ) \mathcal{N}(0, 1) N ( 0 , 1 ) ,分母是与之独立的 χ n − p 2 / ( n − p ) \sqrt{\chi^2_{n-p}/(n-p)} χ n − p 2 / ( n − p ) 。比值即
t j = β ^ j − β j , 0 S E ( β ^ j ) ∼ t n − p t_j = \dfrac{\hat{\beta}_j - \beta_{j,0}}{\mathrm{SE}(\hat{\beta}_j)} \sim t_{n - p} t j = SE ( β ^ j ) β ^ j − β j , 0 ∼ t n − p
其中标准误差
S E ( β ^ j ) = σ ^ [ ( X ⊤ X ) − 1 ] j j \mathrm{SE}(\hat{\beta}_j) = \hat{\sigma}\sqrt{[(X^\top X)^{-1}]_{jj}} SE ( β ^ j ) = σ ^ [( X ⊤ X ) − 1 ] j j
双侧 α \alpha α 水平的检验:拒绝 H 0 : β j = β j , 0 H_0: \beta_j = \beta_{j,0} H 0 : β j = β j , 0 当且仅当 ∣ t j ∣ > t n − p , α / 2 |t_j| > t_{n - p,\,\alpha/2} ∣ t j ∣ > t n − p , α /2 。由置信区间-检验对偶(CI-test duality,模块 2.2.1 已铺垫)得到 1 − α 1 - \alpha 1 − α 置信区间
β ^ j ± t n − p , α / 2 S E ( β ^ j ) \hat{\beta}_j \pm t_{n - p,\,\alpha/2}\,\mathrm{SE}(\hat{\beta}_j) β ^ j ± t n − p , α /2 SE ( β ^ j )
下面的滑块把 t 统计量看作 β ^ − β 0 \hat\beta - \beta_0 β ^ − β 0 这一缺口的线性函数(固定 SE),帮助你直观感受「系数离零越远、t 越大」这件事:
Formula Explorer
(beta_hat - beta_0) / se
七、嵌套模型的 F 检验与调整 R 2 R^2 R 2
更一般的问题:同时检验 q q q 个线性约束——例如「这 q q q 个回归量同时为零」。全模型设计矩阵 X X X 有 p p p 列,约束模型 X 0 X_0 X 0 有 p − q p - q p − q 列。记两份残差平方和为 R S S f u l l \mathrm{RSS}_{\mathrm{full}} RSS full 与 R S S r e d u c e d \mathrm{RSS}_{\mathrm{reduced}} RSS reduced 。在零假设(约束成立)下:
F = ( R S S r e d u c e d − R S S f u l l ) / q R S S f u l l / ( n − p ) ∼ F q , n − p F = \dfrac{(\mathrm{RSS}_{\mathrm{reduced}} - \mathrm{RSS}_{\mathrm{full}}) / q}{\mathrm{RSS}_{\mathrm{full}} / (n - p)} \sim F_{q,\,n - p} F = RSS full / ( n − p ) ( RSS reduced − RSS full ) / q ∼ F q , n − p
分子的几何意义:把 q q q 个方向从残差子空间里抠掉,RSS 必然上升,上升量是 q q q 维方向上的额外平方损失。α \alpha α 水平上单侧拒绝当且仅当 F > F q , n − p , α F > F_{q,\,n - p,\,\alpha} F > F q , n − p , α 。
特例 1 (整体显著性 F 检验):约束模型只含截距,q = p − 1 q = p - 1 q = p − 1 。F 统计量有等价写法
F = R 2 / ( p − 1 ) ( 1 − R 2 ) / ( n − p ) F = \dfrac{R^2 / (p - 1)}{(1 - R^2) / (n - p)} F = ( 1 − R 2 ) / ( n − p ) R 2 / ( p − 1 )
这是回归表里那一行「F-statistic」的来源。特例 2 (q = 1 q = 1 q = 1 ):单系数 F 检验,与对应的双侧 t 检验完全等价,关系式
F = t j 2 F = t_j^2 F = t j 2
学过一次即可,以后不必重证。
最后是 R 2 R^2 R 2 的修正版。R 2 R^2 R 2 随回归量数量单调不降 ——把噪音列拼进 X X X 也不会让 RSS 变大,因为简化模型是全模型的特例。调整 R 2 R^2 R 2 (adjusted R 2 R^2 R 2 )在分子分母上各扣自由度:
R a d j 2 = 1 − R S S / ( n − p ) T S S / ( n − 1 ) R^2_{\mathrm{adj}} = 1 - \dfrac{\mathrm{RSS}/(n - p)}{\mathrm{TSS}/(n - 1)} R adj 2 = 1 − TSS / ( n − 1 ) RSS / ( n − p )
加入纯噪音列会让 R S S / ( n − p ) \mathrm{RSS}/(n - p) RSS / ( n − p ) 上升(RSS 几乎不降,但 n − p n - p n − p 减小),从而把 R a d j 2 R^2_{\mathrm{adj}} R adj 2 拉下来。这才是「加列是否真带信息」的可比指标。
关于稳健性的几点边角,本课不展开:贝叶斯线性回归在 ( β , σ 2 ) (\beta, \sigma^2) ( β , σ 2 ) 上用共轭 normal-inverse-gamma 先验,给出后验区间,叙述路径与本课平行;异方差稳健 SE(Huber-White / sandwich estimator)在 C o v ( ε ) ≠ σ 2 I n \mathrm{Cov}(\varepsilon) \neq \sigma^2 I_n Cov ( ε ) = σ 2 I n 时替换 σ ^ 2 [ ( X ⊤ X ) − 1 ] j j \hat\sigma^2 [(X^\top X)^{-1}]_{jj} σ ^ 2 [( X ⊤ X ) − 1 ] j j ,下一课处理;Wald、似然比、score 三类检验是 F 检验的非线性约束推广,F 检验本身就是 NLM 里对线性约束的 Wald 检验;系数表上多重检验校正(Bonferroni、Holm、BH)属于模块 2.6 / ML 实验设计的范畴。
八、练习
Exercise
假设你对 n = 50 个观测、p = 4 个回归量(含截距)拟合多元线性回归,得到 β ^ 2 = 1.25 \hat\beta_2 = 1.25 β ^ 2 = 1.25 、[ ( X ⊤ X ) − 1 ] 22 = 0.04 [(X^\top X)^{-1}]_{22} = 0.04 [( X ⊤ X ) − 1 ] 22 = 0.04 、RSS = 184。(a)计算 σ ^ 2 \hat\sigma^2 σ ^ 2 与 S E ( β ^ 2 ) \mathrm{SE}(\hat\beta_2) SE ( β ^ 2 ) 。(b)计算 H 0 : β 2 = 0 H_0: \beta_2 = 0 H 0 : β 2 = 0 的 t 统计量,并按双侧 0.05 显著性水平给出结论(取 t 46 , 0.025 ≈ 2.013 t_{46,\,0.025} \approx 2.013 t 46 , 0.025 ≈ 2.013 )。(c)给出 β 2 \beta_2 β 2 的 95% 置信区间。(d)你又拟合一个去掉与 β 2 \beta_2 β 2 对应回归量的简化模型,得到 R S S r e d u c e d = 199 \mathrm{RSS}_{\mathrm{reduced}} = 199 RSS reduced = 199 ,计算两模型的 F 统计量并验证 F = t 2 F = t^2 F = t 2 这一等价关系。
提示 先从
n − p = 46 n - p = 46 n − p = 46 出发算
σ ^ 2 = R S S / ( n − p ) \hat\sigma^2 = \mathrm{RSS}/(n-p) σ ^ 2 = RSS / ( n − p ) ,再用
S E ( β ^ 2 ) = σ ^ 0.04 \mathrm{SE}(\hat\beta_2) = \hat\sigma\sqrt{0.04} SE ( β ^ 2 ) = σ ^ 0.04 。t 统计量就是
β ^ 2 \hat\beta_2 β ^ 2 除以 SE。置信区间套
β ^ 2 ± 2.013 ⋅ S E \hat\beta_2 \pm 2.013 \cdot \mathrm{SE} β ^ 2 ± 2.013 ⋅ SE 即可。
提示 (d)中
q = 1 q = 1 q = 1 :F 统计量分子是
R S S r e d − R S S f u l l \mathrm{RSS}_{\mathrm{red}} - \mathrm{RSS}_{\mathrm{full}} RSS red − RSS full 除以 1,分母是
σ ^ 2 = R S S f u l l / ( n − p ) \hat\sigma^2 = \mathrm{RSS}_{\mathrm{full}}/(n-p) σ ^ 2 = RSS full / ( n − p ) 。验证
F = t j 2 F = t_j^2 F = t j 2 时把两边各自代入数值对照即可。
九、通往下一节
到这里你已经能在 NLM 下把任何一行回归系数表读成「点估计 + SE + t + p 值 + 95% 置信区间」,把任何一对嵌套模型读成一次 F 检验。但这些数字默认了正态、同方差、不相关、列满秩——任何一条被现实数据违反,t 与 F 的零分布就开始失真。下一节展开模型假设的诊断和正则化方法:残差图与 QQ 图检视分布、杠杆 h i i h_{ii} h ii 与 Cook 距离揪出异常观测、方差膨胀因子(VIF)量化共线性,以及岭回归(ridge)与 Lasso 处理列近似共线时的方差爆炸。处理实际数据中的常见违背,正是把今天这套精致推断武器装上实战支架的过程。