带禁运区的 Purged K 折交叉验证

需要面试准备

某买方研究台在日频价格 panel 上训练一个监督模型，想要一个诚实的样本外评分。Label 是 label_horizon 个 bar 的前向收益，因此 i 行的 label 由 i 到 i + label_horizon - 1 这 label_horizon 个 bar 的数据算出。普通 k 折把 panel 切成连续段、用其余段训练——但如果 i 在 train、i 的 label 窗口里有某行落在 test，那么 i 的*训练* label 已经偷读了 test 折的数据。模型不是泛化，是背答案，OOS 评分一文不值。时序 ML 文献推广开的 Purged k 折交叉验证修复了这一点：purge 掉 label 窗口与 test 折相交的 train 样本；再在 test 折两侧加一段 embargo 缓冲对抗特征里的自相关（rolling mean、EWMA 这种输入即便 label 不重叠也会把相邻 bar 渗进来）。

查看订阅方案