假设检验与 P 值 — 参数估计与假设检验

某私募的量化研究员把新风控流程在 60 个交易日上跑出的日收益序列丢到屏幕上,样本均值比对照组高出 12 bp,样本标准差 35 bp。组合经理只关心一个问题:这 12 bp 究竟是流程改造带来的真效应,还是 60 个数里凑巧抖出来的噪声?把「凑巧」翻译成数学,就是本课要交付的工具:在一个明确的概率模型下,把「真效应」与「凑巧」分到拒绝域与接受域两边,并给做错的概率定价。前三课已经把估计量与置信区间备齐,这一课把它们装进决策框架,作为本模块的收口。

一、检验的设定与两类错误

把模型 $\{f(x;\theta):\theta\in\Theta\}$ 的参数空间切开成 $\Theta=\Theta_0\cup\Theta_1$ 。原假设(null hypothesis) $H_0:\theta\in\Theta_0$ 通常代表「现状」或「无效应」,备择假设(alternative) $H_1:\theta\in\Theta_1$ 代表你想证实的方向。检验(test)是一条决策规则:选检验统计量(test statistic) $T(X)$ 与拒绝域(rejection region) $R$ ,若 $T(X)\in R$ 则拒绝 $H_0$ 。

四种结果排成 $2\times2$ 表。第一类错误(Type I error)是 $H_0$ 为真时却拒绝,概率即显著性水平(significance level)

\alpha = \sup_{\theta \in \Theta_0} P_\theta(T(X) \in R)

由你预先选定(常取 $0.05$ 或 $0.01$ );第二类错误(Type II error)是 $H_1$ 为真时却不拒绝,概率 $\beta(\theta)$ ,功效(power)为 $1-\beta(\theta)$ 。非对称性必须吃透: $\alpha$ 在设计阶段被你钉死, $\beta$ 则取决于 $n$ 、噪声水平与真值 $\theta\in\Theta_1$ ,只能通过功效分析(power analysis)在事前估算。这背后的逻辑是法庭式的——「无罪推定」给 $H_0$ 兜底,所以宁愿放过一个真效应,也不愿草率拒绝一个本来正确的零假设;研究问题的方向决定了哪一类错误被牢牢压住。

二、奈曼-皮尔逊引理

简单对简单 $H_0:\theta=\theta_0$ vs $H_1:\theta=\theta_1$ 的情形给出最优解。奈曼-皮尔逊引理(Neyman-Pearson lemma)断言:所有水平 $\alpha$ 检验中,似然比检验(likelihood-ratio test)

\Lambda(x) = \dfrac{L(\theta_1; x)}{L(\theta_0; x)} > k

(其中 $k$ 由 $P_{\theta_0}(\Lambda(X) > k) = \alpha$ 决定)是最大功效(most powerful)。证明思路只要一行:任取另一水平 $\alpha$ 拒绝域 $R'$ ,在等值线 $\{\Lambda=k\}$ 两侧把 $R$ 与 $R'$ 不重合的部分做面积交换,即可证明 $R$ 处处不劣(完整证明见 Casella & Berger 8.3.12)。在单调似然比族里,该结论可拓展为关于 $\theta$ 的单侧 UMP(一致最大功效)检验。极大似然估计已经为构造检验提供了天然的统计量,而 NP 引理告诉你:似然比本身就是最优诊断量,这也是后续 Wald、score、广义似然比三种检验都从同一根源发芽的原因。

三、四个正态模型检验

围绕正态分布(Gaussian distribution) $\mathcal{N}(\mu,\sigma^2)$ 的四个标准检验,我们沿同济《概率论与数理统计》第八章的顺序逐一摆出,水平 $\alpha$ 双侧拒绝域如下:

z 检验(u 检验)( $\sigma$ 已知,均值): $Z=\sqrt{n}(\bar X-\mu_0)/\sigma$ , $H_0$ 下 $Z\sim\mathcal{N}(0,1)$ ,拒绝域 $|Z|>z_{\alpha/2}$ 。
t 检验( $\sigma$ 未知,均值):

T = \dfrac{\sqrt{n}\,(\bar{X} - \mu_0)}{S} \sim t_{n - 1}

在 $H_0:\mu=\mu_0$ 下,水平 $\alpha$ 的拒绝域为 $|T|>t_{n-1,\,\alpha/2}$ 。

chi^2 检验(方差): $W=(n-1)S^2/\sigma_0^2$ , $H_0:\sigma^2=\sigma_0^2$ 下 $W\sim\chi^2_{n-1}$ ,拒绝域 $W<\chi^2_{n-1,\,1-\alpha/2}$ 或 $W>\chi^2_{n-1,\,\alpha/2}$ 。
两样本 t 检验(等方差):

T = \dfrac{\bar{X} - \bar{Y}}{S_p\,\sqrt{1/n_X + 1/n_Y}}

配以合并方差

S_p^{\,2} = \dfrac{(n_X - 1) S_X^{\,2} + (n_Y - 1) S_Y^{\,2}}{n_X + n_Y - 2}

$H_0$ 下服从 $t_{n_X+n_Y-2}$ 。两总体方差未必相等时,R 的 t.test 与 SciPy ttest_ind(equal_var=False) 默认采用 Welch (1947, Biometrika 34:28-35) 的近似——魏尔奇校正用 Welch-Satterthwaite 公式估自由度,这是现代软件的默认行为。这四个检验之间的连贯性在于:它们都源自正态-卡方家族的精确抽样分布,因此没有任何渐近近似——只要数据真的服从正态, $\alpha$ 就被严格控制,而不是「样本量足够大时近似控制」。

四、P 值的定义与三个常见误读

固定右尾(right-tailed)检验的统计量 $T(X)$ 与观测值 $t_{\mathrm{obs}}$ ,P 值(p-value)是

p = \sup_{\theta \in \Theta_0} P_\theta(T(X) \geq t_{\mathrm{obs}})

双侧检验在 $H_0$ 分布对称时取 $p=2\sup_{\theta\in\Theta_0}P_\theta(T\geq|t_{\mathrm{obs}}|)$ 。操作规则:水平 $\alpha$ 下, $p\le\alpha$ 即拒绝 $H_0$ ;否则不拒绝。换言之,P 值是把「拒绝域大小」量化到 $[0,1]$ 上的一种连续刻度——它把「我是否拒绝」从一个二元决定升级为一个对证据强度的读数。

直观上,P 值答的是「若 $H_0$ 真,见到至少这般极端结果的可能性有多大」。它不是「数据已知 $H_0$ 为真的概率」。请把下面三条写在显眼处(整理自 Wasserstein & Lazar 2016 年 ASA 关于 P 值的声明,The American Statistician 70(2):129-133):

(i) P 值不是 $H_0$ 为真的概率——它是 $H_0$ 下的尾概率,而不是 $H_0$ 的后验概率;

(ii) $1-P$ 不是备择为真的概率——同一类条件方向反过来的混淆;

(iii) $P>0.05$ 不是 $H_0$ 为真的证据——不能拒绝不等于证实,小样本下尤其如此。

五、t 检验的端到端例子

设 $n=16$ , $\bar X=10.4$ , $S=2.0$ ,在 $\alpha=0.05$ 检验 $H_0:\mu=10$ 对 $H_1:\mu\neq 10$ :

算统计量: $T=\sqrt{n}(\bar X-\mu_0)/S=\sqrt{16}\cdot(10.4-10)/2.0=4\cdot 0.4/2.0=0.8$ 。
查临界值: $t_{15,\,0.025}\approx 2.131$ 。由于 $|T|=0.8<2.131$ ,不能拒绝 $H_0$ 。
算 P 值: $p=2\,P(T_{15}\ge 0.8)\approx 0.44$ ,远大于 $0.05$ ,与上一步结论一致。

下面的滑块帮你直观感受 $T$ 如何随样本量 $n$ 、间距 $\bar X-\mu_0$ 与样本标准差 $s$ 联动——把 $n$ 拨大或缩小间距, $|T|$ 的尺度立即可视化:

Formula Explorer

sqrt(n) * (xbar - mu_0) / s

六、置信区间与检验的对偶

把检验 $H_0:\theta=\theta_0$ 的接受域记作 $A(\theta_0)=R^c$ ,对任一样本 $X$ 定义

C(X) = \{\theta_0 : X \in A(\theta_0)\}

则 $P_\theta(\theta\in C(X))\ge 1-\alpha$ ,即 $C(X)$ 是 $1-\alpha$ 置信区间。反之,任何 $1-\alpha$ 置信区间 $C(X)$ 都诱导一个水平 $\alpha$ 检验: $\theta_0\notin C(X)$ 即拒绝 $H_0:\theta=\theta_0$ 。落到 t 区间与 t 检验这对组合: $\bar X\pm t_{n-1,\,\alpha/2}\,S/\sqrt n$ 含 $\mu_0$ 当且仅当双侧 t 检验不拒绝 $H_0:\mu=\mu_0$ 。「直接从置信区间读出假设检验」——这就是它的形式化。这一条对偶不是花架子:它意味着第 3 课写出来的每一个置信区间都自带一族即时的检验,你不再需要为每个新 $\mu_0$ 重新查表。

七、多重检验与对下一模块的桥接

最后一个真实的提醒:若你独立做 $m$ 次水平 $\alpha$ 检验,族错误率(family-wise error rate, FWER)最高可达 $1-(1-\alpha)^m$ ; $m=20$ 、 $\alpha=0.05$ 时已约 $64\%$ 。两类经典纠偏:Bonferroni 校正(邦费罗尼校正)用 $\alpha/m$ 控制 FWER;BH 程序(本杰明-霍奇伯格程序,Benjamini & Hochberg 1995, JRSS-B 57(1):289-300)对 P 值排序后比较 $i\alpha/m$ ,控制错误发现率(false discovery rate, FDR),代价更小、功效更高,适合在因子挖掘、A/B 测试矩阵这类「批量假设」场景下使用。两者并非互斥:FWER 控制是「一例都不能错」,FDR 控制是「错的比例不要太高」,选择哪一个取决于一次假阳性的现实成本有多重。茆诗松《概率论与数理统计教程》第七章与同济《概率论与数理统计》第八章可作为系统化的回顾参考。本模块到此收束——回归系数的 t 检验和嵌套模型的 F 检验都是本节内容的直接推广:你将在 2.2.2「回归与广义线性模型」里看到这套机器原样换装,统计量与零分布的搭配方式一字不差。

Exercise

某新生产工艺在 $n=25$ 件产品上试验,样本平均寿命 $\bar X=1050$ 小时,样本标准差 $S=80$ 小时;历史均值为 $\mu_0=1000$ 小时。

(a) 写出关于均值的双侧检验的 $H_0$ 与 $H_1$ ; (b) 计算单样本 t 统计量及其自由度; (c) 报告双侧 P 值(保留两位有效数字)以及水平 $0.05$ 下的决策; (d) 构造 $\mu$ 的 $95\%$ t 置信区间,并验证它与 (c) 的对偶性。

提示

统计量是

T=\sqrt{n}(\bar X-\mu_0)/S

,自由度

n-1=24

。代数后得到

|T|

的数值,再与

t_{24,\,0.025}\approx 2.064

比较即可作出 (b) 与 (c) 的初步判断。

提示

P 值取

2\,P(T_{24}\ge|T_{\mathrm{obs}}|)

;置信区间为

\bar X\pm t_{24,\,0.025}\,S/\sqrt{n}

。若区间不含

\mu_0=1000

,与 (c) 的拒绝结论一致——这正是对偶性的现金体验。