← 返回编程题库

需要面试准备

某买方研究台在日频价格 panel 上训练一个监督模型,想要一个诚实的样本外评分。Label 是 label_horizon 个 bar 的前向收益,因此 i 行的 label 由 ii + label_horizon - 1label_horizon 个 bar 的数据算出。普通 k 折把 panel 切成连续段、用其余段训练——但如果 i 在 train、i 的 label 窗口里有某行落在 test,那么 i 的*训练* label 已经偷读了 test 折的数据。模型不是泛化,是背答案,OOS 评分一文不值。时序 ML 文献 推广开的 Purged k 折交叉验证修复了这一点:purge 掉 label 窗口与 test 折相交的 train 样本;再在 test 折两侧加一段 embargo 缓冲对抗特征里的自相关(rolling mean、EWMA 这种输入即便 label 不重叠也会把相邻 bar 渗进来)。

查看订阅方案