全站搜索 — 锐望实验室

全部 · 4546 课程 · 299 模块 · 72 题目 · 4169 帮助 · 6 收藏题单 · 0

找到 13 个结果

English questions

题目2464 · 机器学习

不碰测试标签并不够

有人辩称不存在泄漏，因为代码从未访问测试标签。给出这个辩护在真实机器学习流水线里为什么会失效的核心原因。

打开 →

题目2426 · 机器学习

为什么污染数据下稳健损失很重要 22

为什么当数据流水线偶尔会产生错标标签或传感器尖峰时，从业者可能更愿意使用 Huber 或 pseudo-Huber 损失？

打开 →

题目2519 · 机器学习

为什么超参数搜索不能碰测试集 24

为什么在这里用测试集调 lambda，与任何其他 ML 流水线里一样有问题？

打开 →

题目4264 · 机器学习

什么时候 PCA 会有害

什么时候 PCA 反而可能伤害预测流程？

打开 →

题目1720 · 统计

低先验概率下的阳性结果可信度

假设被测试的交易想法里，真正有预测力的只有 1%。某个检验流程的 power 为 80%，假阳性率为 5%。在得到一个“阳性结果”的条件下，其中真正有效的比例是多少？

打开 →

题目2466 · 机器学习

做泄漏审查时该审什么

你在审计一个流水线是否泄漏。除了查看最终 dataframe 的切分位置之外，代码路径里最值得优先检查的是什么？

打开 →

题目4182 · 机器学习

先标准化再切分训练测试

一个流程在划分训练集和测试集之前，先用全量数据的均值和标准差对每个特征做标准化。这样干净吗？

打开 →

题目826 · 脑筋急转弯

双阶段流水线完工时间 1

7 个相同任务每个都先要在阶段 1 上处理 3 分钟，再在阶段 2 上处理 5 分钟。每个阶段同一时刻最多处理一个任务，且若阶段 2 空闲，任务完成阶段 1 后可立即进入阶段 2。全部任务最早何时完成？

打开 →

题目2453 · 机器学习

在全样本面板上选尾部截断阈值

流水线在切分之前，就用全样本面板计算出的 1% 和 99% 分位数来截断利差特征。即使这个截断规则不使用标签，为什么它仍然会偏高测试分数？

打开 →

题目4333 · 机器学习

在淘汰 RNN 之前

在交易系统流水线里，为什么你不该轻易把 RNN 完全排除掉？

打开 →

题目2449 · 机器学习

悄悄使用留出样本的发行人去均值

对某个发行人来说，3 条训练样本的和为 12。流水线错误地用该发行人 5 条全样本计算出的均值 3.6 去做去均值。这个发行人两条留出样本的和是多少？

打开 →

题目4315 · 机器学习

正则不是孤立存在

在过参数化网络里，为什么脱离优化器和数据流程单独谈正则强度是错误的？

打开 →

题目4178 · 机器学习

裁剪再标准化 3

一笔原始日收益 4.8% 先被 winsorize 到区间 [-3%, 3%]，再用滚动均值 0.5% 和滚动标准差 1.0% 做标准化。最后得到的 z-score 特征是多少？

打开 →