不碰测试标签并不够
有人辩称不存在泄漏,因为代码从未访问测试标签。给出这个辩护在真实机器学习流水线里为什么会失效的核心原因。
打开 →GLOBAL SEARCH
搜索在服务端完成,题目解析与答案不会进入搜索结果。登录后可搜索自己的收藏题单。
找到 13 个结果
English questions有人辩称不存在泄漏,因为代码从未访问测试标签。给出这个辩护在真实机器学习流水线里为什么会失效的核心原因。
打开 →为什么当数据流水线偶尔会产生错标标签或传感器尖峰时,从业者可能更愿意使用 Huber 或 pseudo-Huber 损失?
打开 →为什么在这里用测试集调 lambda,与任何其他 ML 流水线里一样有问题?
打开 →什么时候 PCA 反而可能伤害预测流程?
打开 →假设被测试的交易想法里,真正有预测力的只有 1%。某个检验流程的 power 为 80%,假阳性率为 5%。在得到一个“阳性结果”的条件下,其中真正有效的比例是多少?
打开 →你在审计一个流水线是否泄漏。除了查看最终 dataframe 的切分位置之外,代码路径里最值得优先检查的是什么?
打开 →一个流程在划分训练集和测试集之前,先用全量数据的均值和标准差对每个特征做标准化。这样干净吗?
打开 →7 个相同任务每个都先要在阶段 1 上处理 3 分钟,再在阶段 2 上处理 5 分钟。每个阶段同一时刻最多处理一个任务,且若阶段 2 空闲,任务完成阶段 1 后可立即进入阶段 2。全部任务最早何时完成?
打开 →流水线在切分之前,就用全样本面板计算出的 1% 和 99% 分位数来截断利差特征。即使这个截断规则不使用标签,为什么它仍然会偏高测试分数?
打开 →在交易系统流水线里,为什么你不该轻易把 RNN 完全排除掉?
打开 →对某个发行人来说,3 条训练样本的和为 12。流水线错误地用该发行人 5 条全样本计算出的均值 3.6 去做去均值。这个发行人两条留出样本的和是多少?
打开 →在过参数化网络里,为什么脱离优化器和数据流程单独谈正则强度是错误的?
打开 →一笔原始日收益 4.8% 先被 winsorize 到区间 [-3%, 3%],再用滚动均值 0.5% 和滚动标准差 1.0% 做标准化。最后得到的 z-score 特征是多少?
打开 →