多重检验与 p 值黑客行为 — 研究工作流程与纪律

一位头部量化私募基金经理周五走进研究总监的办公室端着一张幻灯片 —— 五年评估窗口上沪深 300 横截面净扣成本后夏普比率 2.0，t 统计量 4.5，样本外净值曲线漂亮至极。研究总监翻到方法学那页。"你的 N 是多少？" "我在相同窗口上筛了大约 100 个动量 / 反转 / 量价叠加变体。" "那在每个底层信号真实夏普等于零的零假设下，N=100 的最大夏普期望是多少？" 沉默。"按 Bailey-Lopez de Prado 公式大约 2.36。" "你观测到的夏普是？" "2.0。" "比零假设期望 还低。" 基金经理愣住。在单一检验解读下看起来像 4.5σ 大胜的信号，对筛选规模修正之后，最多是微弱证据 —— 100 次试验的最大值即使每一个底层信号都是纯噪声也应该在 2.36 左右；打出 2.0 反而 低于 噪声期望。本课是模块的统计核心。L1 安装试验计数器；L2 守住测试集；L3 把计数器转成 "结果真实性" 的通缩概率。

多重检验通胀

当研究员试了 N 个信号变体并报告最好那个时，N 次试验的最大观测夏普系统性偏高 —— 即使每一个底层信号真实夏普都是零。Bailey-Lopez de Prado 分解给出经典一阶近似：

E[max Sharpe over N trials] ≈ sqrt(2 * ln N) - γ / sqrt(2 * ln N)

where γ ≈ 0.577 is the Euler-Mascheroni constant.

N=20    → ≈ 1.87
N=100   → ≈ 2.36
N=1000  → ≈ 3.00
N=10000 → ≈ 3.66

KaTeX 形式：

$E[\max SR_N] \approx \sqrt{2 \ln N} - \frac{\gamma}{\sqrt{2 \ln N}}, \quad \gamma \approx 0.577$

解读：N=50 候选信号筛出的夏普报 2.0，大约等于零假设期望，不是真信号的强证据。公式推自极值理论 —— N 个标准正态变量的最大值极限分布是 Gumbel；sqrt(2 ln N) 是极限的主阶项；γ 修正是二阶项。该分解假定 N 次试验近似独立且在零假设下近似高斯；López de Prado 在《Advances in Financial Machine Learning》第八章推广时放松了两项假设，得到通缩 Sharpe 比率。

这里的教训不是量化研究没希望 —— 而是报告出来的夏普必须结合筛选规模来评估。N=1 时夏普 2.0 是强证据；N=50 时夏普 2.0 在噪声地板；N=10000 时夏普 3.5 在噪声地板。L1 的试验计数器是输入；下文的修正是作用在它上的函数。

三项修正

实战中用的三项修正，按此顺序与适用场景：

1. Bonferroni              - multiply per-test p-value by N; conservative; for high-stakes confirmatory single tests
2. Benjamini-Hochberg FDR  - sort p-values, find largest `k` such that `p_(k) ≤ k/N * α`, reject smallest `k`;
                             controls expected proportion of false discoveries; for screening many candidates
3. Deflated Sharpe Ratio (DSR) - Bailey-López de Prado; estimates probability that observed max Sharpe is real
                                  given N + cross-sectional variance + skewness + kurtosis; threshold `DSR > 0.95`;
                                  for Sharpe-based research output

适用场景映射很重要。Bonferroni 是保守下界 —— 它把 family-wise error rate（N 次检验中 任一 假阳性的概率）控制住，代价是统计检验力。当单次假阳性代价灾难性时用它（10 亿规模 sleeve 的单次验证性检验）。Benjamini-Hochberg FDR 控制假阳性的 期望比例；比 Bonferroni 宽，适用于筛选多候选且容忍少数假阳性的场景（进入下一轮评审的研究筛选）。DSR 是针对 backtest-overfitting 的 Sharpe-原生修正；任何报告出的样本外 Sharpe 都应把它作为头条复现检查。

通缩 Sharpe 比率

Bailey & López de Prado 2014, J. of Portfolio Management 40(5) 给出公式：

DSR = Φ(((SR - E[max SR]) * sqrt(T - 1))
        / sqrt(1 - γ_3 * SR + ((γ_4 - 1) / 4) * SR²))

where SR        = observed annualised Sharpe ratio
      T         = number of observations in years
      γ_3       = skewness of the underlying return series
      γ_4       = kurtosis (the full fourth moment)
      E[max SR] = multiple-testing-inflated expectation from the section above
      Φ         = standard-normal CDF

Threshold rule:
  DSR > 0.95 → strong evidence
  0.7 < DSR < 0.95 → suggestive
  DSR < 0.7 → weak

KaTeX 形式：

$DSR = \Phi\left( \frac{(SR - E[\max SR])\sqrt{T - 1}}{\sqrt{1 - \gamma_3 \cdot SR + \frac{\gamma_4 - 1}{4} SR^2}} \right)$

分子把观测夏普与给定 N 次试验后的零假设期望作差；分母在非高斯收益下对夏普估计量的方差做尺度修正（γ_3 * SR 修偏态，((γ_4 - 1) / 4) * SR² 修峰度）。Φ 把结果的 z 分数转成概率。阈值规则 DSR > 0.95 → strong; 0.7 < DSR < 0.95 → suggestive; DSR < 0.7 → weak 是行业标准分层。

解读：DSR 是 "观测夏普是真的" 的概率 —— 即底层策略真实 Sharpe 大于零的后验概率 —— 给定 N 次试验、横截面 Sharpe 方差、收益分布矩。N=10 下夏普 2.0 报 DSR 0.92 是 suggestive；同一夏普 N=100 时 DSR 可能跌到 0.7 以下。

五种经典 p-hacking 形式

五种经典形式，按此顺序与对应修复：

1. screening over many signals and reporting the best          fix: trial counter + DSR
2. screening over many hyperparameters per signal              fix: compound N includes every hyperparameter trial
3. screening over many universes / windows / horizons          fix: declare universe + window + horizon in pre-registration
4. optional stopping when result is significant                fix: pre-specified evaluation window with no early stopping
5. post-hoc outlier exclusion to make a result significant     fix: outlier rule declared in pre-registration

五种形式的解药一致：pre-registration + trial counter + DSR + reproducibility。每一种 p-hacking 都在静默抬高有效 N；没有 L1 试验计数器就无法应用 L3 修正；没有 L2 测试集上锁就无法信任试验计数器；没有 L4 复现性绑定就无法审计整条链。

形式 (1) 是经典筛选-报告 —— 本课开头的失败案例。形式 (2) 更隐蔽：一个信号 "变体" 配 10 种超参数组合实质是 10 次试验，不是 1 次；compound N 是每信号试验数与每超参试验数的乘积。形式 (3) 是 "多版本研究员"："我在沪深 300 上试了，在中证 500 上试了，在中证 1000 上试了，5 日 / 21 日 / 63 日 horizon 都跑了，总有一个 work。" 修复：在预登记文档里锁死 universe 与 horizon；偏离预登记即 +1 进试验计数器。形式 (4) 是提前停止陷阱：研究员每月看一次测试集累积评估，越过显著性阈值即停；这在结构上偏向上行。形式 (5) 是异常值操作：测试窗口中某一日大跌把夏普杀死，分析师把它当 "非代表性" 删掉。修复：异常值规则（例如 "日收益缩尾在 5σ"）必须在测试集触碰之前写入预登记。

代码：通缩 Sharpe 比率

def deflated_sharpe_ratio(observed_sharpe, n_trials, sharpe_cross_sectional_std,
                          return_skewness, return_kurtosis, years_of_data):
    """Bailey & López de Prado 2014.

    Returns a probability in [0, 1]. Caller compares to thresholds:
      DSR > 0.95 → strong
      DSR > 0.7  → suggestive
      else       → weak
    """
    import math
    from scipy.stats import norm
    gamma = 0.577  # Euler-Mascheroni constant
    sr = observed_sharpe
    n = n_trials
    expected_max_sr = math.sqrt(2 * math.log(n)) - gamma / math.sqrt(2 * math.log(n))
    expected_max_sr *= sharpe_cross_sectional_std
    t = years_of_data
    numerator = (sr - expected_max_sr) * math.sqrt(t - 1)
    denominator = math.sqrt(1 - return_skewness * sr
                            + ((return_kurtosis - 1) / 4) * sr ** 2)
    dsr = norm.cdf(numerator / denominator)
    if dsr > 0.95:
        return dsr, 'strong'
    elif dsr > 0.7:
        return dsr, 'suggestive'
    else:
        return dsr, 'weak'

函数名 deflated_sharpe_ratio、参数名、公式系数（gamma = 0.577）、阈值分层 if dsr > 0.95: return 'strong'; elif dsr > 0.7: return 'suggestive'; else: return 'weak' 跨区域字节一致。引用：Bailey & López de Prado 2014。

代码：Bonferroni 与 Benjamini-Hochberg

def bonferroni_threshold(alpha=0.05, n_tests=1):
    """Family-wise error-rate bound. Reject when per-test p < alpha / n_tests."""
    return alpha / n_tests


def benjamini_hochberg(p_values, alpha=0.05):
    """Benjamini & Hochberg 1995, JRSS-B 57(1). Controls expected proportion of false discoveries.

    Sort p-values ascending; find largest k such that p_(k) <= k/n * alpha;
    reject indices 0..k-1 in the sorted order. Returns a boolean mask in the
    original order.
    """
    import numpy as np
    p = np.asarray(p_values)
    n = len(p)
    order = np.argsort(p)
    sorted_p = p[order]
    thresholds = (np.arange(1, n + 1) / n) * alpha
    below = sorted_p <= thresholds
    if not below.any():
        return np.zeros(n, dtype=bool)
    k = np.max(np.where(below)[0]) + 1
    mask_sorted = np.zeros(n, dtype=bool)
    mask_sorted[:k] = True
    mask = np.zeros(n, dtype=bool)
    mask[order] = mask_sorted
    return mask

函数名、参数与 Benjamini-Hochberg 算法（排序、找满足 p_(k) ≤ k/n * alpha 的最大 k、拒绝最小的 k 个）跨区域字节一致；引用 Benjamini & Hochberg 1995。

四项上下游串联

1. L1 experiment log              - the trial counter N is logged here; pre-registration fixes the intended N
2. L2 test-set-touched-once rule  - prevents the effective N from being inflated by repeated test-set touches
3. L4 reproducibility requirement - makes the DSR verifiable by another researcher given the experiment log
4. the discipline cascade         - without L1+L2+L4, L3's correction cannot be applied honestly

孤报一个没有 N 与 DSR 的夏普是软 claim，不是研究结果。脱离上下文的夏普比率、相对中证 500 / 沪深 300 基准的信息比率、评估窗口内的最大回撤、部署之后的 Alpha 衰减 —— 只有试验计数器与修正站在旁边时，这些指标才在统计上可解读。因子模型在价值、质量、动量上的暴露告诉你这个信号是不是已知因子的伪装；针对 2015 股灾、2018 trade-war、2020 疫情、2022 房地产 drawdown 的压力测试确认它经得起 régime 变化；下游 4.4 的均值方差优化与组合优化继承的是修正后估计量的噪声结构，不是原始估计量的。

工作实例：夏普 2.0 的主张

同事报出 510300 沪深 300 ETF 上 best-of-100 动量变体：五年区间 (T=5) 内年化夏普 2.0；100 次试验横截面 Sharpe std 0.4；日收益偏度 γ_3 = -0.7，超额峰度 γ_4 - 3 = 7。算 best-of-N 零假设：sqrt(2 * ln 100) - 0.577 / sqrt(2 * ln 100) ≈ 2.36。观测 2.0 低于 零假设 2.36，结果最多是微弱证据。Bonferroni：每一次检验 α = 0.05 / 100 = 5e-4。DSR：把 2.0、2.36、T=5、γ_3=-0.7、γ_4-3=7 代入公式 → 分子 (2.0 - 2.36) * sqrt(4) ≈ -0.72，分母 sqrt(1 - (-0.7)(2.0) + (7/4)(4)) ≈ sqrt(9.4) ≈ 3.07，z ≈ -0.23，DSR = Φ(-0.23) ≈ 0.41 —— 分层 weak。推荐行动：abandon。N=100 下的 Sharpe 2.0 不是信号；是经验 Gumbel 最大值在说话。

Formula Explorer

\text{DSR} = \Phi\left( \frac{(SR - E[\max SR])\sqrt{T - 1}}{\sqrt{1 - \gamma_3 SR + \frac{\gamma_4 - 1}{4} SR^2}} \right)

练习

Exercise

你正在审一项同事报来的研究结果 —— 510300 沪深 300 ETF 上 best-of-100 动量信号变体，五年评估窗口 (T = 5 years) 内观测年化夏普 = 2.0。100 次试验的横截面 Sharpe 标准差 = 0.4；底层日收益序列偏度 γ_3 = -0.7，超额峰度 γ_4 - 3 = 7。做四项计算并在一张表上报告答案。

(i) 计算零假设下 best-of-N 夏普期望 E[max SR over N=100] = sqrt(2 * ln 100) - 0.577 / sqrt(2 * ln 100) 并报告数值。

(ii) 把观测夏普 2.0 与 (i) 的零假设期望作对比；说明观测夏普是否超出零假设足够多以被视为证据（经验规则：observed - null > 0.5 = evidence）。

(iii) 应用 Bonferroni 修正：报告 N=100 次检验整体 α=0.05 下每一次检验的 α 阈值。

(iv) 用 López de Prado 公式算通缩 Sharpe 比率：DSR = Φ(((2.0 - E[max SR]) * sqrt(5 - 1)) / sqrt(1 - γ_3 * 2.0 + ((γ_4 - 1) / 4) * 4))；报告 DSR 数值并分层 strong (> 0.95)、suggestive (0.7-0.95)、weak (< 0.7)。用一句话给出推荐行动（production / paper-trade / abandon）。

提示

(i) 题 sqrt(2 * ln 100) ≈ 3.035，0.577 / 3.035 ≈ 0.19，3.035 - 0.19 ≈ 2.85；再乘横截面 std 0.4 得上下文化后的零假设 ≈ 2.36 / 有些研究员用原始 2.85。

提示

(iv) 题零假设 ≈ 2.36 而观测 2.0，分子是负数；DSR 必落在 weak 带。推荐行动是 abandon —— N=100 下的表观夏普低于噪声期望。

Harvey-Liu-Zhu 与行业反思

Harvey-Liu-Zhu 2016 (Review of Financial Studies 29(1)) 在学术期刊跨截面收益文献上做了一项大规模多重检验修正，把几百个公布因子中的大多数重新划入「未必真实」一类。论文的教训是：横截面收益文献报告的因子 t-统计量在没有多重检验修正时系统性地高估显著性；他们建议把单因子显著性阈值从 t > 2 抬到 t > 3。这一篇论文重新校定了整个学术因子库的「真实性」期望，也让量化私募与公募量化部门开始把 DSR 与 Bonferroni 写进标准评审清单。

中国 A 股上的类似重新评估始于 2019-2021 年。明汯、幻方、九坤投资与中诚投资的研究团队在内部复盘时发现：早期公布的 A 股因子（包括多类价值 / 反转 / 量价因子）在加上 N 修正与 DSR 后，「真实信号数量」从数十个降到五个以内。研究总监因此在标准 PR 模板里强制加入试验计数器、Bonferroni 阈值与 DSR 报告。

关于「试一个漂亮结果」的文化风险

研究团队中最隐蔽的文化风险不是单个研究员在主观上想作弊，而是团队整体在不知觉中把试验次数与报告解耦：A 研究员试 50 个信号报最好；B 研究员在 A 的残差上又试 50 个信号报最好；C 研究员把 A 与 B 的输出与自己的 30 个候选拼起来选最好。从单研究员视角，每个项目的 N 都不大；从团队视角，有效 N 至少是 50 × 50 × 30 = 75000。修复：团队共享一个实验日志，所有信号试验加入同一计数；团队 PR 评审把「团队累计 N」而不是「个人 N」写入 DSR。这一文化修复比任一统计工具都更重要。

参考卡

本课装配的组件，按序：

Fenced ```math block —— 多重检验通胀公式与 N 表。
Inline-code listing —— 三项经典多重检验修正与适用场景。
Fenced ```math block —— 通缩 Sharpe 比率公式与阈值分层。
Inline-code listing —— 五种经典 p-hacking 形式与对应修复。
Fenced ```python code block —— deflated_sharpe_ratio(...)。
Fenced ```python code block —— bonferroni_threshold(...) 与 benjamini_hochberg(...)。
Inline-code listing —— 四项上下游串联。
Exercise —— best-of-100 DSR 评估，配两条渐进 Hint。
FormulaExplorer —— DSR 公式。

下一课

下一课「研究工具链与可复现性」是工程 capstone —— 把 L1 实验日志做成可审计、把 L2 测试集上锁做成可执行、把 L3 DSR 做成另一研究员可复现的那一层。你将学到六层经典研究栈（notebook vs 脚本、版本锁依赖、随机数种子、git + 特性分支 + PR、实验跟踪、代码评审清单）、八项研究 PR artefact 模板、含不可伪造 git_commit_sha 列的 SQLite 实验日志 schema、以及从单条命令复现结果所需的四项输入。纪律在此闭合：带试验计数器、DSR 与可复现 run-id 的夏普是研究结果；孤报的夏普是猜测。

多重 检验 通胀

三 项 修正

通缩 Sharpe 比率

五 种 经典 p-hacking 形 式

代码：通缩 Sharpe 比率

代码：Bonferroni 与 Benjamini-Hochberg

四 项 上下游 串 联

工作 实例：夏普 2.0 的 主 张

练习

Harvey-Liu-Zhu 与 行业 反 思

关于 「试 一 个 漂亮 结果」 的 文化 风险

参考 卡

下 一 课