时间序列机器学习的 Purged K 折交叉验证

需要面试准备

某买方研究桌台在时间序列面板上训练监督模型，需要一份诚实的样本外得分。样本 i 的标签由评估窗口 [start_i, end_i] 计算（典型为多 bar 前向收益，也可能是三屏障退出时刻、事件驱动标签窗口或其他需要读取多个 bar 的标签）。朴素 k 折交叉验证按时间把面板切成连续折并以余下样本做训练——但若某训练样本的标签评估窗口与测试样本的标签评估窗口重叠，训练标签已经吃掉测试折的信息。沿用 López de Prado 在 *Advances in Financial Machine Learning*（2018）第 7 章的方案，purged k 折交叉验证剔除所有标签窗口与测试折并集评估区间相交的训练样本。可选的 embargo 在测试折之后再丢弃 floor(embargo_pct * n_samples) 个样本，以防特征自相关把测试折的信息向前泄漏。

查看订阅方案