GLOBAL SEARCH

搜索课程、模块、题目与收藏题单

搜索在服务端完成,题目解析与答案不会进入搜索结果。登录后可搜索自己的收藏题单。

找到 13 个结果

English questions
题目2464 · 机器学习

不碰测试标签并不够

有人辩称不存在泄漏,因为代码从未访问测试标签。给出这个辩护在真实机器学习流水线里为什么会失效的核心原因。

打开 →
题目1720 · 统计

低先验概率下的阳性结果可信度

假设被测试的交易想法里,真正有预测力的只有 1%。某个检验流程的 power 为 80%,假阳性率为 5%。在得到一个“阳性结果”的条件下,其中真正有效的比例是多少?

打开 →
题目2466 · 机器学习

做泄漏审查时该审什么

你在审计一个流水线是否泄漏。除了查看最终 dataframe 的切分位置之外,代码路径里最值得优先检查的是什么?

打开 →
题目826 · 脑筋急转弯

双阶段流水线完工时间 1

7 个相同任务每个都先要在阶段 1 上处理 3 分钟,再在阶段 2 上处理 5 分钟。每个阶段同一时刻最多处理一个任务,且若阶段 2 空闲,任务完成阶段 1 后可立即进入阶段 2。全部任务最早何时完成?

打开 →
题目2453 · 机器学习

在全样本面板上选尾部截断阈值

流水线在切分之前,就用全样本面板计算出的 1% 和 99% 分位数来截断利差特征。即使这个截断规则不使用标签,为什么它仍然会偏高测试分数?

打开 →
题目2449 · 机器学习

悄悄使用留出样本的发行人去均值

对某个发行人来说,3 条训练样本的和为 12。流水线错误地用该发行人 5 条全样本计算出的均值 3.6 去做去均值。这个发行人两条留出样本的和是多少?

打开 →
题目4178 · 机器学习

裁剪再标准化 3

一笔原始日收益 4.8% 先被 winsorize 到区间 [-3%, 3%],再用滚动均值 0.5% 和滚动标准差 1.0% 做标准化。最后得到的 z-score 特征是多少?

打开 →