← 返回模块
2.2.1.4beta 可读 · 未来付费校验通过内容版本 2026-05-26

假设检验与 P 值

2.2.1 · 参数估计与假设检验 · 数学与统计能力

某私募的量化研究员把新风控流程在 60 个交易日上跑出的日收益序列丢到屏幕上,样本均值比对照组高出 12 bp,样本标准差 35 bp。组合经理只关心一个问题:这 12 bp 究竟是流程改造带来的真效应,还是 60 个数里凑巧抖出来的噪声?把「凑巧」翻译成数学,就是本课要交付的工具:在一个明确的概率模型下,把「真效应」与「凑巧」分到拒绝域与接受域两边,并给做错的概率定价。前三课已经把估计量与置信区间备齐,这一课把它们装进决策框架,作为本模块的收口。

一、检验的设定与两类错误

把模型 {f(x;θ):θΘ}\{f(x;\theta):\theta\in\Theta\} 的参数空间切开成 Θ=Θ0Θ1\Theta=\Theta_0\cup\Theta_1。​​原假设​​(null hypothesis)H0:θΘ0H_0:\theta\in\Theta_0 通常代表「现状」或「无效应」,​​备择假设​​(alternative)H1:θΘ1H_1:\theta\in\Theta_1 代表你想证实的方向。​​检验​​(test)是一条决策规则:选​​检验统计量​​(test statistic)T(X)T(X) 与​​拒绝域​​(rejection region)RR,若 T(X)RT(X)\in R 则拒绝 H0H_0

四种结果排成 2×22\times2 表。​​第一类错误​​(Type I error)是 H0H_0 为真时却拒绝,概率即​​显著性水平​​(significance level)

α=supθΘ0Pθ(T(X)R)\alpha = \sup_{\theta \in \Theta_0} P_\theta(T(X) \in R)

由你预先选定(常取 0.050.050.010.01);​​第二类错误​​(Type II error)是 H1H_1 为真时却不拒绝,概率 β(θ)\beta(\theta),​​功效​​(power)为 1β(θ)1-\beta(\theta)。非对称性必须吃透:α\alpha 在设计阶段被你钉死,β\beta 则取决于 nn、噪声水平与真值 θΘ1\theta\in\Theta_1,只能通过功效分析(power analysis)在事前估算。这背后的逻辑是法庭式的——「无罪推定」给 H0H_0 兜底,所以宁愿放过一个真效应,也不愿草率拒绝一个本来正确的零假设;研究问题的方向决定了哪一类错误被牢牢压住。

二、奈曼-皮尔逊引理

简单对简单 H0:θ=θ0H_0:\theta=\theta_0 vs H1:θ=θ1H_1:\theta=\theta_1 的情形给出最优解。​​奈曼-皮尔逊引理​​(Neyman-Pearson lemma)断言:所有水平 α\alpha 检验中,​​似然比检验​​(likelihood-ratio test)

Λ(x)=L(θ1;x)L(θ0;x)>k\Lambda(x) = \dfrac{L(\theta_1; x)}{L(\theta_0; x)} > k

(其中 kkPθ0(Λ(X)>k)=αP_{\theta_0}(\Lambda(X) > k) = \alpha 决定)是​​最大功效​​(most powerful)。证明思路只要一行:任取另一水平 α\alpha 拒绝域 RR',在等值线 {Λ=k}\{\Lambda=k\} 两侧把 RRRR' 不重合的部分做面积交换,即可证明 RR 处处不劣(完整证明见 Casella & Berger 8.3.12)。在单调似然比族里,该结论可拓展为关于 θ\theta 的单侧 UMP(一致最大功效)检验。​​极大似然估计​​已经为构造检验提供了天然的统计量,而 NP 引理告诉你:似然比本身就是最优诊断量,这也是后续 Wald、score、广义似然比三种检验都从同一根源发芽的原因。

三、四个正态模型检验

围绕​​正态分布​​(Gaussian distribution)N(μ,σ2)\mathcal{N}(\mu,\sigma^2) 的四个标准检验,我们沿同济《概率论与数理统计》第八章的顺序逐一摆出,水平 α\alpha 双侧拒绝域如下:

  • ​z 检验(u 检验)​​(σ\sigma 已知,均值):Z=n(Xˉμ0)/σZ=\sqrt{n}(\bar X-\mu_0)/\sigma,H0H_0ZN(0,1)Z\sim\mathcal{N}(0,1),拒绝域 Z>zα/2|Z|>z_{\alpha/2}
  • ​t 检验​​(σ\sigma 未知,均值):
T=n(Xˉμ0)Stn1T = \dfrac{\sqrt{n}\,(\bar{X} - \mu_0)}{S} \sim t_{n - 1}

H0:μ=μ0H_0:\mu=\mu_0 下,水平 α\alpha 的拒绝域为 T>tn1,α/2|T|>t_{n-1,\,\alpha/2}

  • ​chi^2 检验​​(方差):W=(n1)S2/σ02W=(n-1)S^2/\sigma_0^2,H0:σ2=σ02H_0:\sigma^2=\sigma_0^2Wχn12W\sim\chi^2_{n-1},拒绝域 W<χn1,1α/22W<\chi^2_{n-1,\,1-\alpha/2}W>χn1,α/22W>\chi^2_{n-1,\,\alpha/2}
  • ​两样本 t 检验​​(等方差):
T=XˉYˉSp1/nX+1/nYT = \dfrac{\bar{X} - \bar{Y}}{S_p\,\sqrt{1/n_X + 1/n_Y}}

配以合并方差

Sp2=(nX1)SX2+(nY1)SY2nX+nY2S_p^{\,2} = \dfrac{(n_X - 1) S_X^{\,2} + (n_Y - 1) S_Y^{\,2}}{n_X + n_Y - 2}

H0H_0 下服从 tnX+nY2t_{n_X+n_Y-2}。两总体方差未必相等时,R 的 t.test 与 SciPy ttest_ind(equal_var=False) 默认采用 Welch (1947, Biometrika 34:28-35) 的近似——魏尔奇校正用 Welch-Satterthwaite 公式估自由度,这是现代软件的默认行为。这四个检验之间的连贯性在于:它们都源自正态-卡方家族的精确抽样分布,因此​​没有任何渐近近似​​——只要数据真的服从正态,α\alpha 就被严格控制,而不是「样本量足够大时近似控制」。

四、P 值的定义与三个常见误读

固定右尾(right-tailed)检验的统计量 T(X)T(X) 与观测值 tobst_{\mathrm{obs}},​​P 值​​(p-value)是

p=supθΘ0Pθ(T(X)tobs)p = \sup_{\theta \in \Theta_0} P_\theta(T(X) \geq t_{\mathrm{obs}})

双侧检验在 H0H_0 分布对称时取 p=2supθΘ0Pθ(Ttobs)p=2\sup_{\theta\in\Theta_0}P_\theta(T\geq|t_{\mathrm{obs}}|)。​​操作规则​​:水平 α\alpha 下,pαp\le\alpha 即拒绝 H0H_0;否则不拒绝。换言之,P 值是把「拒绝域大小」量化到 [0,1][0,1] 上的一种连续刻度——它把「我是否拒绝」从一个二元决定升级为一个对证据强度的读数。

直观上,P 值答的是「若 H0H_0 真,见到至少这般极端结果的可能性有多大」。它​​不是​​「数据已知 H0H_0 为真的概率」。请把下面三条写在显眼处(整理自 Wasserstein & Lazar 2016 年 ASA 关于 P 值的声明,The American Statistician 70(2):129-133):

(i) P 值不是 H0H_0 为真的概率——它是 H0H_0 下的尾概率,而不是 H0H_0 的后验概率;

(ii) 1P1-P 不是备择为真的概率——同一类条件方向反过来的混淆;

(iii) P>0.05P>0.05 不是 H0H_0 为真的证据——不能拒绝不等于证实,小样本下尤其如此。

五、t 检验的端到端例子

n=16n=16,Xˉ=10.4\bar X=10.4,S=2.0S=2.0,在 α=0.05\alpha=0.05 检验 H0:μ=10H_0:\mu=10H1:μ10H_1:\mu\neq 10:

  1. 算统计量:T=n(Xˉμ0)/S=16(10.410)/2.0=40.4/2.0=0.8T=\sqrt{n}(\bar X-\mu_0)/S=\sqrt{16}\cdot(10.4-10)/2.0=4\cdot 0.4/2.0=0.8
  2. 查临界值:t15,0.0252.131t_{15,\,0.025}\approx 2.131。由于 T=0.8<2.131|T|=0.8<2.131,​​不能拒绝​ H0H_0
  3. 算 P 值:p=2P(T150.8)0.44p=2\,P(T_{15}\ge 0.8)\approx 0.44,远大于 0.050.05,与上一步结论一致。

下面的滑块帮你直观感受 TT 如何随样本量 nn、间距 Xˉμ0\bar X-\mu_0 与样本标准差 ss 联动——把 nn 拨大或缩小间距,T|T| 的尺度立即可视化:

Formula Explorer

sqrt(n) * (xbar - mu_0) / s

六、置信区间与检验的对偶

把检验 H0:θ=θ0H_0:\theta=\theta_0 的接受域记作 A(θ0)=RcA(\theta_0)=R^c,对任一样本 XX 定义

C(X)={θ0:XA(θ0)}C(X) = \{\theta_0 : X \in A(\theta_0)\}

Pθ(θC(X))1αP_\theta(\theta\in C(X))\ge 1-\alpha,即 C(X)C(X)1α1-\alpha 置信区间。反之,任何 1α1-\alpha 置信区间 C(X)C(X) 都诱导一个水平 α\alpha 检验:θ0C(X)\theta_0\notin C(X) 即拒绝 H0:θ=θ0H_0:\theta=\theta_0。落到 t 区间与 t 检验这对组合:Xˉ±tn1,α/2S/n\bar X\pm t_{n-1,\,\alpha/2}\,S/\sqrt nμ0\mu_0 当且仅当双侧 t 检验不拒绝 H0:μ=μ0H_0:\mu=\mu_0。「直接从置信区间读出假设检验」——这就是它的形式化。这一条对偶不是花架子:它意味着第 3 课写出来的每一个置信区间都自带一族即时的检验,你不再需要为每个新 μ0\mu_0 重新查表。

七、多重检验与对下一模块的桥接

最后一个真实的提醒:若你独立做 mm 次水平 α\alpha 检验,​​族错误率​​(family-wise error rate, FWER)最高可达 1(1α)m1-(1-\alpha)^m;m=20m=20α=0.05\alpha=0.05 时已约 64%64\%。两类经典纠偏:​​Bonferroni 校正​​(邦费罗尼校正)用 α/m\alpha/m 控制 FWER;​​BH 程序​​(本杰明-霍奇伯格程序,Benjamini & Hochberg 1995, JRSS-B 57(1):289-300)对 P 值排序后比较 iα/mi\alpha/m,控制​​错误发现率​​(false discovery rate, FDR),代价更小、功效更高,适合在因子挖掘、A/B 测试矩阵这类「批量假设」场景下使用。两者并非互斥:FWER 控制是「一例都不能错」,FDR 控制是「错的比例不要太高」,选择哪一个取决于一次假阳性的现实成本有多重。茆诗松《概率论与数理统计教程》第七章与同济《概率论与数理统计》第八章可作为系统化的回顾参考。本模块到此收束——​​回归系数的 t 检验和嵌套模型的 F 检验都是本节内容的直接推广​​:你将在 2.2.2「回归与广义线性模型」里看到这套机器原样换装,统计量与零分布的搭配方式一字不差。

Exercise

某新生产工艺在 n=25n=25 件产品上试验,样本平均寿命 Xˉ=1050\bar X=1050 小时,样本标准差 S=80S=80 小时;历史均值为 μ0=1000\mu_0=1000 小时。

(a) 写出关于均值的双侧检验的 H0H_0H1H_1; (b) 计算单样本 t 统计量及其自由度; (c) 报告双侧 P 值(保留两位有效数字)以及水平 0.050.05 下的决策; (d) 构造 μ\mu95%95\% t 置信区间,并验证它与 (c) 的对偶性。

提示
统计量是 T=n(Xˉμ0)/ST=\sqrt{n}(\bar X-\mu_0)/S,自由度 n1=24n-1=24。代数后得到 T|T| 的数值,再与 t24,0.0252.064t_{24,\,0.025}\approx 2.064 比较即可作出 (b) 与 (c) 的初步判断。
提示
P 值取 2P(T24Tobs)2\,P(T_{24}\ge|T_{\mathrm{obs}}|);置信区间为 Xˉ±t24,0.025S/n\bar X\pm t_{24,\,0.025}\,S/\sqrt{n}。若区间不含 μ0=1000\mu_0=1000,与 (c) 的拒绝结论一致——这正是对偶性的现金体验。