某私募的量化研究员把新风控流程在 60 个交易日上跑出的日收益序列丢到屏幕上,样本均值比对照组高出 12 bp,样本标准差 35 bp。组合经理只关心一个问题:这 12 bp 究竟是流程改造带来的真效应,还是 60 个数里凑巧抖出来的噪声?把「凑巧」翻译成数学,就是本课要交付的工具:在一个明确的概率模型下,把「真效应」与「凑巧」分到拒绝域与接受域两边,并给做错的概率定价。前三课已经把估计量与置信区间备齐,这一课把它们装进决策框架,作为本模块的收口。
一、检验的设定与两类错误
把模型 {f(x;θ):θ∈Θ} 的参数空间切开成 Θ=Θ0∪Θ1。原假设(null hypothesis)H0:θ∈Θ0 通常代表「现状」或「无效应」,备择假设(alternative)H1:θ∈Θ1 代表你想证实的方向。检验(test)是一条决策规则:选检验统计量(test statistic)T(X) 与拒绝域(rejection region)R,若 T(X)∈R 则拒绝 H0。
四种结果排成 2×2 表。第一类错误(Type I error)是 H0 为真时却拒绝,概率即显著性水平(significance level)
α=θ∈Θ0supPθ(T(X)∈R)
由你预先选定(常取 0.05 或 0.01);第二类错误(Type II error)是 H1 为真时却不拒绝,概率 β(θ),功效(power)为 1−β(θ)。非对称性必须吃透:α 在设计阶段被你钉死,β 则取决于 n、噪声水平与真值 θ∈Θ1,只能通过功效分析(power analysis)在事前估算。这背后的逻辑是法庭式的——「无罪推定」给 H0 兜底,所以宁愿放过一个真效应,也不愿草率拒绝一个本来正确的零假设;研究问题的方向决定了哪一类错误被牢牢压住。
二、奈曼-皮尔逊引理
简单对简单 H0:θ=θ0 vs H1:θ=θ1 的情形给出最优解。奈曼-皮尔逊引理(Neyman-Pearson lemma)断言:所有水平 α 检验中,似然比检验(likelihood-ratio test)
Λ(x)=L(θ0;x)L(θ1;x)>k
(其中 k 由 Pθ0(Λ(X)>k)=α 决定)是最大功效(most powerful)。证明思路只要一行:任取另一水平 α 拒绝域 R′,在等值线 {Λ=k} 两侧把 R 与 R′ 不重合的部分做面积交换,即可证明 R 处处不劣(完整证明见 Casella & Berger 8.3.12)。在单调似然比族里,该结论可拓展为关于 θ 的单侧 UMP(一致最大功效)检验。极大似然估计已经为构造检验提供了天然的统计量,而 NP 引理告诉你:似然比本身就是最优诊断量,这也是后续 Wald、score、广义似然比三种检验都从同一根源发芽的原因。
三、四个正态模型检验
围绕正态分布(Gaussian distribution)N(μ,σ2) 的四个标准检验,我们沿同济《概率论与数理统计》第八章的顺序逐一摆出,水平 α 双侧拒绝域如下:
- z 检验(u 检验)(σ 已知,均值):Z=n(Xˉ−μ0)/σ,H0 下 Z∼N(0,1),拒绝域 ∣Z∣>zα/2。
- t 检验(σ 未知,均值):
T=Sn(Xˉ−μ0)∼tn−1
在 H0:μ=μ0 下,水平 α 的拒绝域为 ∣T∣>tn−1,α/2。
- chi^2 检验(方差):W=(n−1)S2/σ02,H0:σ2=σ02 下 W∼χn−12,拒绝域 W<χn−1,1−α/22 或 W>χn−1,α/22。
- 两样本 t 检验(等方差):
T=Sp1/nX+1/nYXˉ−Yˉ
配以合并方差
Sp2=nX+nY−2(nX−1)SX2+(nY−1)SY2
H0 下服从 tnX+nY−2。两总体方差未必相等时,R 的 t.test 与 SciPy ttest_ind(equal_var=False) 默认采用 Welch (1947, Biometrika 34:28-35) 的近似——魏尔奇校正用 Welch-Satterthwaite 公式估自由度,这是现代软件的默认行为。这四个检验之间的连贯性在于:它们都源自正态-卡方家族的精确抽样分布,因此没有任何渐近近似——只要数据真的服从正态,α 就被严格控制,而不是「样本量足够大时近似控制」。
四、P 值的定义与三个常见误读
固定右尾(right-tailed)检验的统计量 T(X) 与观测值 tobs,P 值(p-value)是
p=θ∈Θ0supPθ(T(X)≥tobs)
双侧检验在 H0 分布对称时取 p=2supθ∈Θ0Pθ(T≥∣tobs∣)。操作规则:水平 α 下,p≤α 即拒绝 H0;否则不拒绝。换言之,P 值是把「拒绝域大小」量化到 [0,1] 上的一种连续刻度——它把「我是否拒绝」从一个二元决定升级为一个对证据强度的读数。
直观上,P 值答的是「若 H0 真,见到至少这般极端结果的可能性有多大」。它不是「数据已知 H0 为真的概率」。请把下面三条写在显眼处(整理自 Wasserstein & Lazar 2016 年 ASA 关于 P 值的声明,The American Statistician 70(2):129-133):
(i) P 值不是 H0 为真的概率——它是 H0 下的尾概率,而不是 H0 的后验概率;
(ii) 1−P 不是备择为真的概率——同一类条件方向反过来的混淆;
(iii) P>0.05 不是 H0 为真的证据——不能拒绝不等于证实,小样本下尤其如此。
五、t 检验的端到端例子
设 n=16,Xˉ=10.4,S=2.0,在 α=0.05 检验 H0:μ=10 对 H1:μ=10:
- 算统计量:T=n(Xˉ−μ0)/S=16⋅(10.4−10)/2.0=4⋅0.4/2.0=0.8。
- 查临界值:t15,0.025≈2.131。由于 ∣T∣=0.8<2.131,不能拒绝 H0。
- 算 P 值:p=2P(T15≥0.8)≈0.44,远大于 0.05,与上一步结论一致。
下面的滑块帮你直观感受 T 如何随样本量 n、间距 Xˉ−μ0 与样本标准差 s 联动——把 n 拨大或缩小间距,∣T∣ 的尺度立即可视化:
Formula Explorer
sqrt(n) * (xbar - mu_0) / s
六、置信区间与检验的对偶
把检验 H0:θ=θ0 的接受域记作 A(θ0)=Rc,对任一样本 X 定义
C(X)={θ0:X∈A(θ0)}
则 Pθ(θ∈C(X))≥1−α,即 C(X) 是 1−α 置信区间。反之,任何 1−α 置信区间 C(X) 都诱导一个水平 α 检验:θ0∈/C(X) 即拒绝 H0:θ=θ0。落到 t 区间与 t 检验这对组合:Xˉ±tn−1,α/2S/n 含 μ0 当且仅当双侧 t 检验不拒绝 H0:μ=μ0。「直接从置信区间读出假设检验」——这就是它的形式化。这一条对偶不是花架子:它意味着第 3 课写出来的每一个置信区间都自带一族即时的检验,你不再需要为每个新 μ0 重新查表。
七、多重检验与对下一模块的桥接
最后一个真实的提醒:若你独立做 m 次水平 α 检验,族错误率(family-wise error rate, FWER)最高可达 1−(1−α)m;m=20、α=0.05 时已约 64%。两类经典纠偏:Bonferroni 校正(邦费罗尼校正)用 α/m 控制 FWER;BH 程序(本杰明-霍奇伯格程序,Benjamini & Hochberg 1995, JRSS-B 57(1):289-300)对 P 值排序后比较 iα/m,控制错误发现率(false discovery rate, FDR),代价更小、功效更高,适合在因子挖掘、A/B 测试矩阵这类「批量假设」场景下使用。两者并非互斥:FWER 控制是「一例都不能错」,FDR 控制是「错的比例不要太高」,选择哪一个取决于一次假阳性的现实成本有多重。茆诗松《概率论与数理统计教程》第七章与同济《概率论与数理统计》第八章可作为系统化的回顾参考。本模块到此收束——回归系数的 t 检验和嵌套模型的 F 检验都是本节内容的直接推广:你将在 2.2.2「回归与广义线性模型」里看到这套机器原样换装,统计量与零分布的搭配方式一字不差。
Exercise
某新生产工艺在 n=25 件产品上试验,样本平均寿命 Xˉ=1050 小时,样本标准差 S=80 小时;历史均值为 μ0=1000 小时。
(a) 写出关于均值的双侧检验的 H0 与 H1;
(b) 计算单样本 t 统计量及其自由度;
(c) 报告双侧 P 值(保留两位有效数字)以及水平 0.05 下的决策;
(d) 构造 μ 的 95% t 置信区间,并验证它与 (c) 的对偶性。
提示
统计量是
T=n(Xˉ−μ0)/S,自由度
n−1=24。代数后得到
∣T∣ 的数值,再与
t24,0.025≈2.064 比较即可作出 (b) 与 (c) 的初步判断。
提示
P 值取
2P(T24≥∣Tobs∣);置信区间为
Xˉ±t24,0.025S/n。若区间不含
μ0=1000,与 (c) 的拒绝结论一致——这正是对偶性的现金体验。