样本内/样本外与交叉验证 — 研究工作流程与纪律

一位五十亿规模私募多策略基金的初级研究员周四下午走进代码评审室，端着一个看起来像大胜的信号 —— 中证 500 上的 5 日反转策略，夏普 2.8，最大回撤 4%，2014-2023 年区间上的净值曲线漂亮得不像话。资深研究员翻着 notebook，问了一个问题，信号当场死在桌上："你的训练与测试窗口怎么划的？" "2014-2018 训练，2019-2023 测试。" "为什么不包含 2008？" "我们用后金融危机数据 —— 更相关。" "那 2015 股灾呢？" "在测试集里，但模型没真看见，因为模型每季度重拟合。" "在测试集上？" 沉默。信号不是纪律失败，分割才是纪律失败。2015 股灾因 "不代表性" 被排除在测试集之外，模型重拟合时数据又跨入测试窗口。四大经典泄漏模式中的 regime bias 与 snooping bias 一起出场。L1 安装的是工作流；L2 把数据纪律的机制讲精确。本节课结束后，你应当能读一个回测设计并给它包含的每一种泄漏模式命名。

三个分区

第一项词汇纪律：时序数据沿时间轴切成三块，按此顺序。

1. training set     - in-sample window; the researcher iterates freely; typically 60-70%
2. validation set   - intermediate held-out slice for hyperparameter selection; typically 10-20%
3. test set         - out-of-sample window touched exactly once at end; typically 20-30%

典型的 60 / 20 / 20 或 70 / 15 / 15 是经验比例；结构性规则更硬：时序顺序严格 —— 测试集是时序最晚的一段，绝不是随机切出来的一片。对金融时序做随机 k 折，将通过序列相关、regime 持续与标签重叠三条路径把未来信息偷进训练集；时序顺序才能阻断它。

训练集是研究员 被允许 偷看的地方。画分布、算摘要统计、拟合候选模型、调超参数、把明显跑不通的变体扔掉。验证集是选超参数的地方（验证集表现最好的候选进下一步）。测试集是在项目末尾把选定模型评估 恰好一次 的地方；评估没过线，项目即结束。

四种数据分割策略

四种经典策略，按复杂度升序。决策规则：99% 的时候用简单时序留出；模型在生产中重训时用 walk-forward；regime 稳定且多数据一定更好时用 expanding-window；只有当简单时序留出给出的测试样本太少时才用 purged k-fold。

1. simple temporal hold-out        - cleanest; 99% of projects; train on first 70-80%, test on last 20-30%
2. walk-forward backtest           - most production-realistic; re-fit at each step on `[t-L, t]`, evaluate on `[t, t+H]`
3. expanding-window backtest       - training window grows monotonically; stable regimes
4. purged + embargoed k-fold CV    - Lopez de Prado; when labels overlap

simple temporal hold-out 是最干净的分割，99% 的项目都应该优先用它。2014-2021 训练、2022-2023 测试；测试集从项目开始即冻结，恰好触碰一次。它的干净来自简陋：没有巧妙的数据切片、没有 purging 逻辑、没有 embargoing 规则可以写错。复杂 CV 方案的 bug 会静默泄漏；时序留出要么显眼，要么没错。

walk-forward backtest 在每一步 t 用滚动窗口 [t-L, t] 重拟合模型，在 [t, t+H] 上评估。它是最贴近生产的策略，因为模型重拟合时用的数据与实盘在每一个时间点上真实可用的数据一致 —— 仿真的策略等于部署的策略。当生产模型本身会重训（例如因子模型每周重拟合）时，回测必须跟上这个机制。

expanding-window backtest 是 walk-forward 的表亲，训练窗口单调递增 —— 始终使用 t 之前的全部数据。当多数据一定更好且 regime 稳定时首选；A 股基本面因子研究在较长的 Wind 万得数据区间上经常用这个模式。

purged + embargoed k-fold CV 是 Lopez de Prado 在《Advances in Financial Machine Learning》ch. 7 的贡献。时序切成 k 个连续块；每一折评估测试块，把与测试块相邻的训练块里标签窗口与测试块重叠的样本 purged 掉，再在测试块与训练块之间插入 embargo 区域阻断序列相关泄漏。这个策略 只在 简单时序留出给出的测试样本太少时用 —— 例如标签是 90 日前向收益、时序又短。

purged + embargoed k-fold 规则紧凑形式：

train_label_excluded if |label_end_train - label_start_test| < label_horizon
                     OR (label_start_train - test_end) in [0, embargo_size]

embargo_size = max(0.01 * N_total, label_horizon)

embargo-size 公式的 KaTeX 形式：

$\text{embargo\_size} = \max(0.01 \cdot N_{\text{total}}, \text{label\_horizon})$

label-end / label-start 算术抓的是前向收益标签的计算窗口与测试块重叠的样本。Embargo 区域抓的是序列相关泄漏：测试块后一个交易日的标签与测试块的标签仍有高自相关，把它放入训练等于实质在测试集上训练。

四种泄漏模式

金融研究中所有泄漏都落在这四个桶里，按此顺序，附典型夏普通胀区间：

1. look-ahead bias    - a feature uses future data; inflation 1.5-3x
   bug example:       a centered moving average (uses t+5 to compute the feature at t)
2. survivorship bias  - universe excludes delisted names; inflation 1.5-2x
   bug example:       today's index universe used to backtest the 2010-2023 window
3. snooping bias      - analyst saw the test set during exploration; inflation 1.5-2x
   bug example:       repeated test-set touches; hyperparameters tuned to validation residuals
4. regime bias        - train and test in the same regime; inflation 1.2-2x
   bug example:       GFC excluded from test, train and test both post-crisis low-rate

look-ahead bias 是最常见的新手错误：时刻 t 的特征不小心使用了时间戳大于 t 的数据。教科书案例是居中移动平均 —— pandas 的 .rolling(window=5, center=True).mean() 看入未来两天。修复：每一个特征必须只用 timestamp <= t 的数据，写入代码断言。

survivorship bias 是 4.1.1 L4 的 universe 错误。今日沪深 300 universe 只包含 幸存者；用今日成分股回测 2010-2023 区间系统性地排除输家 —— 2007-2008 损失惨重的银行股、2015 股灾后被 ST 的名单、2018 年后退市的创业板尾部。修复：使用 4.1.1 L4 的 point-in-time universe universe(date, symbol)，反映每一个历史日期真实在指数里的名单。

snooping bias 是 L1 的工作流失败 —— 分析师在探索过程中看过测试集并无意间把超参调到测试集上。每一次测试集重触都是 +1 进入 L3 的多重检验修正的有效 N。修复：data/test/ 的文件系统权限；test_set_seal.lock 文件；站会纪律问 "测试集看了吗？"。

regime bias 是最隐蔽的模式。2014-2021 训练 / 2022-2023 测试的切法看上去诚实，但两段都大致落在后金融危机低利率 régime 里；模型从没见过真正的加息周期。修复：测试窗口必须至少包含一个危机或 régime 转换。对 A 股 2014-2023 的数据，那意味着 2015 股灾、2018 trade-war drawdown、2020 疫情 drawdown、2022 房地产 drawdown 至少有一个必须在测试集里。教科书反面案例 —— "2010-2017 训练，2018-2021 测试，避开 2015，Sharpe 2.5！" —— 就是 regime bias 的自白。2015 股灾与 2020 / 2022 episode 是 数据集中最信息量大的时段；排除它们等于选择不测试模型。

代码：时序 train / test 分割

def temporal_train_test_split(df, test_fraction=0.2):
    """按 时间 顺序 把 索引 为 时间 的 DataFrame 切 成 train 与 test。

    函数 把 时序 最 晚 的 一 段 作 为 测试集 返回，绝 不 随机 切片。
    若 索引 不 单调 递增，抛 ValueError。
    """
    if not df.index.is_monotonic_increasing:
        raise ValueError("index must be monotonically increasing for a temporal split")
    n = len(df)
    split = int(n * (1 - test_fraction))
    train_df = df.iloc[:split]
    test_df = df.iloc[split:]
    return train_df, test_df

函数签名跨区域字节一致：temporal_train_test_split(df, test_fraction=0.2) 返回 (train_df, test_df)，当时序索引被排序或合并破坏时抛 ValueError('index must be monotonically increasing for a temporal split')。"字节跨区一致" 规则反映函数是工程件而非叙述件；docstring 翻译，函数体共用。

代码：purged + embargoed k-fold

def purged_kfold_split(df, label_horizon, n_splits=5, embargo_fraction=0.01):
    """Lopez de Prado, Advances in Financial Machine Learning ch. 7.

    每 一 折 yield (train_indices, test_indices) 满足：
      (a) k 个 测试 块 是 连续 时序 分区；
      (b) 训练 标签 的 标签 窗口 与 测试 块 重叠 的 样本 被 purged；
      (c) 测试 块 之后 插 入 max(embargo_fraction * len(df), label_horizon) 的 embargo 区域。
    """
    import numpy as np
    n = len(df)
    embargo = max(int(embargo_fraction * n), label_horizon)
    block_size = n // n_splits
    for k in range(n_splits):
        test_start = k * block_size
        test_end = (k + 1) * block_size if k < n_splits - 1 else n
        test_indices = np.arange(test_start, test_end)
        purge_start = max(0, test_start - label_horizon)
        purge_end = min(n, test_end + label_horizon)
        embargo_end = min(n, test_end + embargo)
        train_indices = np.array(
            [i for i in range(n)
             if i < purge_start or i >= embargo_end]
        )
        yield train_indices, test_indices

函数签名与行为跨区域字节一致。label-horizon 参数对应前向收益计算窗口（5 日标签取 5、月频标签取 21）；embargo 取一个标签 horizon 或 1% 的数据集（取较大者），是阻断测试块与相邻训练标签之间序列相关泄漏的关键。

泄漏检测清单

每一个项目在写报告之前执行这张五项清单。任何一项不过即重新跑修复；清单是测试集触碰一次规则的工程落地。

(i)   every feature at time t uses only data with timestamp <= t                  (look-ahead check)
(ii)  the universe is universe(date, symbol) from 4.1.1 L4, not today's index     (survivorship check)
(iii) the test set has been touched zero times during exploration                 (snooping check)
(iv)  the test window includes at least one crisis period                        (regime check)
(v)   for overlapping labels, purging + embargoing is applied                    (label-overlap check)

规则：每一个项目在写报告之前执行；任何一项不过即重新跑修复。五项检查沿下游串起 —— (i) 接 L4 复现性规则即特征流水线必须可从种子重生；(ii) 接 4.1.1 L4 的 point-in-time universe；(iii) 接 L1 预登记文档把测试窗口从头上锁；(iv) 接 L3 多重检验修正由 regime 过拟合实际收窄推断；(v) 接 walk-forward 与 purged k-fold 作为生产模式。

纪律口号

测试集从项目开始即留出，最多触碰一次；要迭代用验证集；验证集用尽了就加数据，绝不重用测试集。L1 的四个执行层（工程、文化、代码评审、统计）在这里落在测试集上锁上；L1 实验日志里的试验计数器是 L3 多重检验修正的输入；L4 把整个栈与 git commit SHA 绑定，全链可审计。

Formula Explorer

\text{embargo} = 0.01 \cdot N - \text{label\_horizon} + \text{label\_horizon}

样本外评估的夏普比率必须扣交易成本计算；针对基准（中证 500、沪深 300 或行业中性化因子栈）的信息比率把超额收益分解出来；策略的最大回撤与 Sharpe 一起报告；测试窗口的 Alpha 衰减 —— 信号预测力在测试区间内的衰减速度 —— 是抓 "夏普来自一次 régime 对齐而不是持久 edge" 的诊断；因子模型的归因（多少是价值、质量、动量、低波）告诉你这个 "信号" 是不是已知因子的伪装；动量暴露是横截面信号的经典混杂；测试窗口权重进入生产簿的均值方差优化在下游 4.4 里；约束化组合簿的组合优化同在下游；中国证监会与 AMAC 中国证券投资基金业协会信息披露要求的监管级压力测试场景闭合监管端的链路。

练习

Exercise

你正在评估一个 510300 沪深 300 ETF 上的 5 日动量信号，10 年区间是 2014-01-01 to 2023-12-31。做四项计算，按表报告答案。

(i) 用 temporal_train_test_split 配 test_fraction = 0.2，报告 train 与 test 的日期区间。

(ii) 找出你数据区间内的三个经典危机时段（2015 股灾 / 2018 trade-war drawdown / 2022 疫情 drawdown），针对 80 / 20 时序留出给出每一个危机落在 train、validation 还是 test 分区，用一句话论证每一个危机为什么应该留在它被分到的分区。

(iii) 对 5 日前向收益标签实现并跑 purged_kfold_split(df, label_horizon=5, n_splits=5, embargo_fraction=0.01)；报告 embargo 区域的交易日数与第一折被 purged 的训练标签数。

(iv) 对四种泄漏模式（look-ahead、survivorship、snooping、regime）每一种给出你在这个项目上会应用的一项具体工程或流程修复（例如：look-ahead 用 assert all(feature_timestamps <= label_timestamps)；survivorship 用 4.1.1 L4 的 universe(date, symbol)；snooping 用 data/test/ 的文件系统权限；regime 用 verify test window contains at least one crisis period）。

把全部四个答案报告在一张表上。

提示

10 年 ≈ 2,517 交易日；80/20 切在 2022-02-15 附近。2015 股灾与 2018 trade-war 在 train；2022 疫情 drawdown 在 test；regime check 要求测试集至少一危机。

提示

5 日标签 + 2517 日，embargo = max(0.01 * 2517, 5) = 25 日。修复与泄漏模式配对：时序断言 / PIT universe / 文件权限 / 含危机测试窗口。

参考卡

本课装配的组件，按序：

Inline-code listing —— 三个数据分区（training / validation / test）。
Inline-code listing —— 四种经典时序数据分割策略。
Inline-code listing —— 四种经典泄漏模式与典型 Sharpe 通胀区间。
Fenced ```text block —— purged + embargoed k-fold CV 规则与 embargo-size 公式。
Fenced ```python code block —— temporal_train_test_split(df, test_fraction=0.2)。
Fenced ```python code block —— purged_kfold_split(df, label_horizon, n_splits=5, embargo_fraction=0.01)。
Inline-code listing —— 五项泄漏检测清单。
Exercise —— 5 日动量信号四项分割评估，配两条渐进 Hint。
FormulaExplorer —— embargo-size 规则。

下一课

下一课「多重检验与 p 值黑客行为」把 L1 开出的、L2 保护的试验计数器转成量化 "报告出来的夏普中真正真的那部分" 的统计修正。你将看到为什么 N=50 候选信号筛出的夏普 2.0 大约等于零假设期望，不是真信号的强证据；学到 Bailey-Lopez de Prado 分解、Bonferroni 与 Benjamini-Hochberg 修正、以及通缩夏普比 (DSR)。本课学到的四种泄漏模式都映射到 N —— 每一次测试集重触 +1 实际试验数，每一次 régime 过拟合缩窄推断窗口，每一个 look-ahead 特征抬高估计量的零假设方差。L3 把统计纪律闭合。

三 个 分区

四 种 数据 分割 策略

四 种 泄漏 模式

代码：时序 train / test 分割

代码：purged + embargoed k-fold

泄漏 检测 清单

纪律 口号

练习

参考 卡

下 一 课

三个分区

四种数据分割策略

四种泄漏模式

泄漏检测清单

纪律口号

参考卡

下一课