测试块可用比例 9
一个 30 天的测试块使用 10 日前瞻收益来评估。如果要求每个完整标签都必须留在测试块内部,那么测试块中的起始日期有多少比例是真正可用的?
打开 →GLOBAL SEARCH
搜索在服务端完成,题目解析与答案不会进入搜索结果。登录后可搜索自己的收藏题单。
找到 30 个结果
English questions一个 30 天的测试块使用 10 日前瞻收益来评估。如果要求每个完整标签都必须留在测试块内部,那么测试块中的起始日期有多少比例是真正可用的?
打开 →线上系统在测试时经常会缺失一个传感器特征,但你的模型族可以很干净地分解联合特征似然。在这种情况下,哪一类模型会获得更现实的优势?
打开 →有人辩称不存在泄漏,因为代码从未访问测试标签。给出这个辩护在真实机器学习流水线里为什么会失效的核心原因。
打开 →某产品上线在市场接受时收益 $+30$,不接受时收益 $-12$;接受的先验概率为 $\frac{3}{10}$。你也可以选择搁置产品,收益为 $0$。一位顾问提供一项完全准确的测试,可在你决策前揭示真实市场状态。你最多应为这项测试支付多少?
打开 →为什么即使真实预测信号完全没变,加入大量灵活特征仍可能恶化测试误差?
打开 →为什么在原始测试资源相同的情况下,自适应提问策略通常比非自适应测试电池能区分更多状态?
打开 →为什么在这里用测试集调 lambda,与任何其他 ML 流水线里一样有问题?
打开 →一个流程在划分训练集和测试集之前,先用全量数据的均值和标准差对每个特征做标准化。这样干净吗?
打开 →一个 walk-forward 流程先使用 24 个月训练,然后评估 3 个月测试块,并且在总长 39 个月的历史上每次只前移 1 个月。整个流程一共会重训多少次模型?
打开 →第一个测试有三个结果。若出现结果 A,你还可以再问两个二元问题;若出现结果 B,你还可以再问一个三元问题;若出现结果 C,流程必须停止。最多能区分多少个等概率状态?
打开 →若在训练块固定时把测试块拉长,评分方差和制度纯度通常会怎样变化?
打开 →团队训练了一个模型,画出随 boosting 轮数变化的测试损失曲线,并汇报测试值最好的那个轮数。为什么这个测试分数已经不能作为最终检验?
打开 →一个滚动 walk-forward 方案使用 24 个月训练、随后 1 个月 embargo、再接 6 个月测试,并且每次前移 6 个月,总历史长度为 61 个月。每个测试块的前 2 个月只用于预热滚动特征,不能交易。最终一共能得到多少个月的可交易样本外月份?
打开 →如果你在看到测试集中出现了多少稀有类别之后,才决定保留类别所需的最小频数阈值,为什么这已经是被污染的设计决策?
打开 →模型先在测试集上评估,随后发现一个 bug,修复代码后又用同一测试集来验证修复并在两个修正版之间做选择。为什么第二次使用已经不是干净的测试?
打开 →为什么 Sherman-Morrison 公式恰好在 1 + v^T A^(-1)u = 0 时失效?
打开 →为什么即使偏差和方差看起来都已经很小,模型改进仍可能停滞?
打开 →为什么正则化让训练集拟合变差、却改善样本外 MSE,这完全可能且合理?
打开 →风控要的是明天对冲账本 PnL 的压力分布,而前台要的是同一本账今天的估值。两者应使用同一种测度吗?
打开 →你进行一个 A/B 测试,处理组与对照组各有 $n$ 个独立 Bernoulli 观测。记样本均值为 $\bar X$ 和 $\bar Y$。请用 Hoeffding 不等式给出 \[ P\bigl((\bar X-\bar Y)-E[\bar X-\bar Y]\ge \varepsilon\bigr) \] 的上界。
打开 →为什么 wrong-way risk 往往先在压力测试里暴露出来,而不是先在日常定价公式里暴露出来?
打开 →你有1000瓶酒,其中恰有一瓶有毒。任何喝下含毒酒液的试毒者会在完全相同的固定延迟后死亡,你可以让每名试毒者在一轮中同时品尝任意若干瓶的组合(延迟后、庆典前观察结果)。如果只有一轮测试,最少需要多少名试毒者才能保证找出那瓶毒酒?
打开 →第一个测试有左、中、右三个结果。若走到左支,可以再做一个五路升级诊断;若走到中支或右支,每条支路都只能再问一个二元问题。总共能区分多少个状态?
打开 →模型 A 的额外测试 MSE 是 0.04 + 18/n,而模型 B 的额外测试 MSE 是 0.16 + 4/n,其中 n 是样本量。它们在什么样本量下打平?
打开 →为什么一个声称自己只测试过 5 个“命名策略”的团队,实际搜索深度仍可能远远大于 5?
打开 →研究员测试了 50 个候选特征,只报告其中 p 值最小的一个,而这个最小 p 值恰好是 0.01。为什么把这个 0.01 当成单个预先指定检验的结果来解读会有误导性?
打开 →假设被测试的交易想法里,真正有预测力的只有 1%。某个检验流程的 power 为 80%,假阳性率为 5%。在得到一个“阳性结果”的条件下,其中真正有效的比例是多少?
打开 →一种罕见疾病的发病率为万分之一。筛查测试的灵敏度(真阳性率)为99%,特异度(真阴性率)为99%。(a) 一个随机选中的人检测呈阳性,他真正患病的概率是多少?(b) 同一个人再做一次独立测试(同样的灵敏度和特异度),结果再次呈阳性。现在患病概率是多少?(c) 一位医院管理者看到测试「99%准确」后,提议对全部100,000名员工进行强制筛查,声称「几乎所有阳性结果都是真的」。量化预期阳性结果中有多少是假阳性,并解释管理者的推理为何有误。
打开 →假设每棵树的偏差平方都是 b^2,预测噪声底为 nu,而 bagging 只会按等相关树公式改变方差项。请推导拥有 B 棵树时的 bagged 测试 MSE。
打开 →假设你每天都测试 20 条纯噪声交易规则,一年按 252 个交易日计算,每次都用 5% 显著性水平且不做任何校正。 那么全年期望会出现多少个假阳性?
打开 →