线性回归的统计推断 — 回归与广义线性模型

上海某私募的量化研究员在沪深300（CSI 300）成分股的三年日频收益里跑了一支六因子模型，回归表打出来：动量项系数 0.18、t 统计量 3.2，整体显著性 F 统计量 18.4。组合经理盯着她问：「这几个数字，到底说明因子真的有 alpha，还是只是回归噪音被你刚好捞到了？」她手里的工具不能回答这个问题——上一课的 $\hat\beta = (X^\top X)^{-1} X^\top y$ 是点估计，没有不确定性。本节要把这只点估计装进一整套推断（inference）工具：抽样分布、置信区间、t / F 检验。所有结果都建立在一根假设上，散场之前你要看清那根假设到底承担了什么。

一、从点估计到推断：正态线性模型

上一课用到的高斯-马尔可夫（Gauss-Markov）五条假设——线性、零均值、同方差、不相关、列满秩——只够让 $\hat\beta$ 成为无偏估计。要构造检验和置信区间，还需要给误差的联合分布一个完整描述。最经济的做法是再加一条：误差服从多元正态分布（Gaussian distribution），写成

y = X\beta + \varepsilon, \quad \varepsilon \sim \mathcal{N}_n(0, \sigma^2 I_n)

这就是正态线性模型（Normal Linear Model, NLM）。两件事现在就要分清：Gauss-Markov 定理的最优性不依赖正态——它只用到 $\mathrm{Cov}(\varepsilon) = \sigma^2 I_n$ ；而 t / F 分布与精确置信区间需要正态。 $\varepsilon$ 不正态但 iid、方差有限时，中心极限定理给出 $\hat\beta$ 的大样本近似正态——这一句话就是本课对大样本情形的辩护书，具体推证不在此展开。

NLM 还有一个副产品：在这条正态假设下，普通最小二乘（ordinary least squares, OLS）估计同时是 $\beta$ 的极大似然估计（maximum likelihood estimation, MLE）——对 $\log L$ 关于 $\beta$ 求梯度并令零，得到的方程恰好是上一课的正规方程（normal equations） $X^\top X \hat\beta = X^\top y$ 。两套估计哲学在 NLM 里合流。

二、 $\hat\beta$ 的抽样分布

把 $y = X\beta + \varepsilon$ 代回闭式解：

\hat\beta = (X^\top X)^{-1} X^\top y = \beta + (X^\top X)^{-1} X^\top \varepsilon

这是高斯向量 $\varepsilon$ 的一个仿射变换（affine transformation），所以 $\hat\beta$ 仍是高斯向量。逐项算：

\begin{aligned} E[\hat\beta] &= \beta + (X^\top X)^{-1} X^\top E[\varepsilon] = \beta \\ \mathrm{Cov}(\hat\beta) &= (X^\top X)^{-1} X^\top (\sigma^2 I_n) X (X^\top X)^{-1} = \sigma^2 (X^\top X)^{-1} \end{aligned}

合起来即：

$\hat{\beta} \sim \mathcal{N}_p\!\left(\beta,\ \sigma^2 (X^\top X)^{-1}\right)$

请把两件事分清：无偏 $E[\hat\beta] = \beta$ 只用到 $E[\varepsilon] = 0$ ，不用正态；联合正态才需要 $\varepsilon$ 正态。对角分量给出 $\mathrm{Var}(\hat\beta_j) = \sigma^2 [(X^\top X)^{-1}]_{jj}$ ，后面构造 t 统计量直接调用这一项。

三、Gauss-Markov 定理：OLS 是 BLUE

陈述：在 Gauss-Markov 五条假设下，对任何线性组合 $c^\top \beta$ ，OLS 给出的 $c^\top \hat\beta_{\mathrm{OLS}}$ 在所有 $y$ 的线性无偏估计中方差最小——OLS 是最优线性无偏估计（Best Linear Unbiased Estimator, BLUE）。重申一遍：这里不假设 $\varepsilon$ 正态，只用到 $\mathrm{Cov}(\varepsilon) = \sigma^2 I_n$ 。

证明。设 $\tilde\beta = A y$ 是任一线性无偏估计。由 $E[\tilde\beta] = A X \beta = \beta$ 对一切 $\beta$ 成立，得 $A X = I_p$ 。把 $A$ 拆成

A = (X^\top X)^{-1} X^\top + D, \quad D X = A X - I_p = 0

计算协方差：

\begin{aligned} \mathrm{Cov}(\tilde\beta) &= A \mathrm{Cov}(y) A^\top = \sigma^2 A A^\top \\ &= \sigma^2 \left[ (X^\top X)^{-1} + D D^\top \right] \end{aligned}

其中交叉项 $(X^\top X)^{-1} X^\top D^\top = 0$ ，因为 $D X = 0$ 即 $X^\top D^\top = 0$ 。两项相减：

\mathrm{Cov}(\tilde\beta) - \mathrm{Cov}(\hat\beta_{\mathrm{OLS}}) = \sigma^2 D D^\top \succeq 0

差是半正定矩阵——证毕。这条证明的力量在于：它只用到二阶矩结构，正态分布不必登场。

四、 $\sigma^2$ 的无偏估计

$\sigma^2$ 没法直接观测，只能从残差里挤。自然的候选是残差均方

$\hat{\sigma}^2 = \dfrac{\mathrm{RSS}}{n - p}$

为什么分母是 $n - p$ ？记 $M = I_n - H$ 为残差化矩阵（residual-maker matrix）， $H = X(X^\top X)^{-1} X^\top$ 是上一课的帽子矩阵。残差 $e = M y = M\varepsilon$ （ $M X = 0$ ），故

$\mathrm{RSS} = e^\top e = \varepsilon^\top M \varepsilon$

用迹技巧（trace trick）：对一般二次型 $E[\varepsilon^\top M \varepsilon] = \mathrm{trace}(M \cdot \mathrm{Cov}(\varepsilon)) = \sigma^2 \,\mathrm{trace}(M)$ ，而 $M$ 对称幂等、秩为 $n - p$ ，所以 $\mathrm{trace}(M) = n - p$ 。代入：

$E[\mathrm{RSS}] = \sigma^2 (n - p) \implies E[\hat\sigma^2] = \sigma^2$

分母 $n - p$ 正是残差子空间 $\mathrm{col}(X)^\perp$ 的维度，跟独立同分布样本方差里的 $n - 1$ 一脉相承——多减去的 $p - 1$ 个自由度，是估计 $\beta$ 的 $p$ 个分量额外消耗掉的（其中 1 个还给了均值方向）。

五、Cochran 定理：卡方与独立性

加上正态假设，关于二次型有 Cochran 定理一句话概括：对高斯向量做正交幂等分解，得到的若干二次型彼此独立、各自服从卡方分布，自由度等于对应幂等矩阵的秩。完整证明涉及二次型的谱分解，参见 Casella & Berger 第 5.3 节。本课直接用两条推论：

（i） $M$ 对称幂等、秩 $n - p$ ，故

$\dfrac{(n - p)\,\hat{\sigma}^2}{\sigma^2} \sim \chi^2_{n - p}$

（ii） $H y$ 与 $M y$ 在联合正态下不相关（ $\mathrm{Cov}(H y, M y) = \sigma^2 H M = 0$ ，因 $H M = 0$ ），故二者独立；而 $\hat\beta$ 只通过 $H y$ 依赖 $y$ ， $\hat\sigma^2$ 只通过 $M y$ 依赖 $y$ ，所以  $\hat\beta$ 与 $\hat\sigma^2$ 独立。这是下一节构造 t 分布的钥匙。

六、单系数的 t 检验与置信区间

把三件零件—— $\hat\beta_j$ 的边际正态、 $\hat\sigma^2$ 的卡方、二者独立——按 t 分布的标准构造拼起来：分子是 $\hat\beta_j$ 中心化后除以真标准差所得的 $\mathcal{N}(0, 1)$ ，分母是与之独立的 $\sqrt{\chi^2_{n-p}/(n-p)}$ 。比值即

$t_j = \dfrac{\hat{\beta}_j - \beta_{j,0}}{\mathrm{SE}(\hat{\beta}_j)} \sim t_{n - p}$

其中标准误差

$\mathrm{SE}(\hat{\beta}_j) = \hat{\sigma}\sqrt{[(X^\top X)^{-1}]_{jj}}$

双侧 $\alpha$ 水平的检验：拒绝 $H_0: \beta_j = \beta_{j,0}$ 当且仅当 $|t_j| > t_{n - p,\,\alpha/2}$ 。由置信区间-检验对偶（CI-test duality，模块 2.2.1 已铺垫）得到 $1 - \alpha$ 置信区间

$\hat{\beta}_j \pm t_{n - p,\,\alpha/2}\,\mathrm{SE}(\hat{\beta}_j)$

下面的滑块把 t 统计量看作 $\hat\beta - \beta_0$ 这一缺口的线性函数（固定 SE），帮助你直观感受「系数离零越远、t 越大」这件事：

Formula Explorer

(beta_hat - beta_0) / se

七、嵌套模型的 F 检验与调整 $R^2$

更一般的问题：同时检验 $q$ 个线性约束——例如「这 $q$ 个回归量同时为零」。全模型设计矩阵 $X$ 有 $p$ 列，约束模型 $X_0$ 有 $p - q$ 列。记两份残差平方和为 $\mathrm{RSS}_{\mathrm{full}}$ 与 $\mathrm{RSS}_{\mathrm{reduced}}$ 。在零假设（约束成立）下：

$F = \dfrac{(\mathrm{RSS}_{\mathrm{reduced}} - \mathrm{RSS}_{\mathrm{full}}) / q}{\mathrm{RSS}_{\mathrm{full}} / (n - p)} \sim F_{q,\,n - p}$

分子的几何意义：把 $q$ 个方向从残差子空间里抠掉，RSS 必然上升，上升量是 $q$ 维方向上的额外平方损失。 $\alpha$ 水平上单侧拒绝当且仅当 $F > F_{q,\,n - p,\,\alpha}$ 。

特例 1（整体显著性 F 检验）：约束模型只含截距， $q = p - 1$ 。F 统计量有等价写法

F = \dfrac{R^2 / (p - 1)}{(1 - R^2) / (n - p)}

这是回归表里那一行「F-statistic」的来源。特例 2（ $q = 1$ ）：单系数 F 检验，与对应的双侧 t 检验完全等价，关系式

$F = t_j^2$

学过一次即可，以后不必重证。

最后是 $R^2$ 的修正版。 $R^2$ 随回归量数量单调不降——把噪音列拼进 $X$ 也不会让 RSS 变大，因为简化模型是全模型的特例。调整 $R^2$ （adjusted $R^2$ ）在分子分母上各扣自由度：

$R^2_{\mathrm{adj}} = 1 - \dfrac{\mathrm{RSS}/(n - p)}{\mathrm{TSS}/(n - 1)}$

加入纯噪音列会让 $\mathrm{RSS}/(n - p)$ 上升（RSS 几乎不降，但 $n - p$ 减小），从而把 $R^2_{\mathrm{adj}}$ 拉下来。这才是「加列是否真带信息」的可比指标。

关于稳健性的几点边角，本课不展开：贝叶斯线性回归在 $(\beta, \sigma^2)$ 上用共轭 normal-inverse-gamma 先验，给出后验区间，叙述路径与本课平行；异方差稳健 SE（Huber-White / sandwich estimator）在 $\mathrm{Cov}(\varepsilon) \neq \sigma^2 I_n$ 时替换 $\hat\sigma^2 [(X^\top X)^{-1}]_{jj}$ ，下一课处理；Wald、似然比、score 三类检验是 F 检验的非线性约束推广，F 检验本身就是 NLM 里对线性约束的 Wald 检验；系数表上多重检验校正（Bonferroni、Holm、BH）属于模块 2.6 / ML 实验设计的范畴。

八、练习

Exercise

假设你对 n = 50 个观测、p = 4 个回归量（含截距）拟合多元线性回归，得到 $\hat\beta_2 = 1.25$ 、 $[(X^\top X)^{-1}]_{22} = 0.04$ 、RSS = 184。（a）计算 $\hat\sigma^2$ 与 $\mathrm{SE}(\hat\beta_2)$ 。（b）计算 $H_0: \beta_2 = 0$ 的 t 统计量，并按双侧 0.05 显著性水平给出结论（取 $t_{46,\,0.025} \approx 2.013$ ）。（c）给出 $\beta_2$ 的 95% 置信区间。（d）你又拟合一个去掉与 $\beta_2$ 对应回归量的简化模型，得到 $\mathrm{RSS}_{\mathrm{reduced}} = 199$ ，计算两模型的 F 统计量并验证 $F = t^2$ 这一等价关系。

提示

先从

n - p = 46

出发算

\hat\sigma^2 = \mathrm{RSS}/(n-p)

，再用

\mathrm{SE}(\hat\beta_2) = \hat\sigma\sqrt{0.04}

。t 统计量就是

\hat\beta_2

除以 SE。置信区间套

\hat\beta_2 \pm 2.013 \cdot \mathrm{SE}

即可。

提示

（d）中

q = 1

：F 统计量分子是

\mathrm{RSS}_{\mathrm{red}} - \mathrm{RSS}_{\mathrm{full}}

除以 1，分母是

\hat\sigma^2 = \mathrm{RSS}_{\mathrm{full}}/(n-p)

。验证

F = t_j^2

时把两边各自代入数值对照即可。

九、通往下一节

到这里你已经能在 NLM 下把任何一行回归系数表读成「点估计 + SE + t + p 值 + 95% 置信区间」，把任何一对嵌套模型读成一次 F 检验。但这些数字默认了正态、同方差、不相关、列满秩——任何一条被现实数据违反，t 与 F 的零分布就开始失真。下一节展开模型假设的诊断和正则化方法：残差图与 QQ 图检视分布、杠杆 $h_{ii}$ 与 Cook 距离揪出异常观测、方差膨胀因子（VIF）量化共线性，以及岭回归（ridge）与 Lasso 处理列近似共线时的方差爆炸。处理实际数据中的常见违背，正是把今天这套精致推断武器装上实战支架的过程。