第 1 / 2 页
非代码面试题
显示 20 / 24 道匹配题目
答题状态:未尝试未正确已正确
ID题目领域难度题型进度权限
2446泄漏目标编码隐含出的验证集正样本数某个类别在训练集中出现 40 次,其中 18 次为正;在验证集中又出现 10 次。目标编码器错误地在训练集和验证集一起拟合,并给这个类别输出 0.56。这个编码实际上隐含使用了多少个验证集正样本?机器学习简单数值题未尝试免费2447在全样本拟合缩放器后训练均值的偏移某个特征在 80 条训练样本上的均值为 10,在 20 条测试样本上的均值为 14。缩放器错误地在全部 100 条样本上拟合,并使用标准差 5。用这个泄漏后的缩放器变换后,训练块的平均标准化值是多少?机器学习简单数值题未尝试免费2448全样本类别权重隐含出的留出集基准率训练集有 100 个标签,其中 30 个为正。一个类别权重程序错误地在全部 125 个标签上拟合,并报告整体正例率为 0.36。那 25 个留出标签中的正例率是多少?机器学习中等数值题未尝试面试订阅2449悄悄使用留出样本的发行人去均值对某个发行人来说,3 条训练样本的和为 12。流水线错误地用该发行人 5 条全样本计算出的均值 3.6 去做去均值。这个发行人两条留出样本的和是多少?机器学习中等数值题未尝试面试订阅2451因留出样本而存活的稀有类别某个类别预处理器只保留出现次数至少为 5 的水平。仅看训练集时,水平 Z 出现 4 次。错误地在全样本上拟合后,Z 的频数变成 7 并被保留。这个泄漏是由多少条留出集 Z 样本造成的?机器学习简单数值题未尝试免费2452把未来重述数据并入历史特征研究员把几个月后才公布的重述财务数据接到原始交易日上,再对这些原始日期做回测。即使完全没碰测试标签,这为什么仍然是切分纪律失败?机器学习中等essay未尝试面试订阅2453在全样本面板上选尾部截断阈值流水线在切分之前,就用全样本面板计算出的 1% 和 99% 分位数来截断利差特征。即使这个截断规则不使用标签,为什么它仍然会偏高测试分数?机器学习中等essay未尝试面试订阅2454切分前先做特征筛选团队先在全数据集上按与目标的相关性给 5,000 个候选特征排序,保留前 30 个,然后才切分训练集和测试集。为什么之后再切分也救不了这个实验?机器学习中等essay未尝试面试订阅2455研究过程中反复偷看验证集研究员不断尝试新的特征变换,并只保留那些能提升同一个验证分数的变换。为什么验证集此时不再是一个干净的模型选择工具?机器学习困难essay未尝试面试订阅2456按行切分而不是按发行人切分每个发行人都会贡献很多不同日期的观测。即使目标变量是按日期分别定义的,为什么按行随机切分仍然可能高估表现?机器学习简单essay未尝试免费2457在交叉验证之前一次性拟合 PCA某个笔记本先在全特征矩阵上做 PCA,再把得到的主成分送进每个交叉验证折。为什么这不是无害的提速优化?机器学习简单essay未尝试免费2458根据测试曲线来选早停轮数团队训练了一个模型,画出随 boosting 轮数变化的测试损失曲线,并汇报测试值最好的那个轮数。为什么这个测试分数已经不能作为最终检验?机器学习中等essay未尝试面试订阅2459用事后修订的指数成分做历史筛选某个回测先用当前指数成分来筛选股票池,再在这个受限股票池上评估历史预测。为什么这同样属于训练/测试纪律问题?机器学习困难essay未尝试面试订阅2460一直用验证集试到某个模型靠运气赢两个候选模型本来很接近。研究员不断微调随机种子和预处理,直到其中一个在同一份验证切片上胜出。为什么这个看起来的胜利应该打折看待?机器学习困难essay未尝试面试订阅2461从未来特征里学习稀有类别合并规则虽然没有用标签,但预处理步骤通过查看全数据集的类别频率来决定哪些稀有行业要被合并。为什么这仍然会让评估过于乐观?机器学习简单essay未尝试免费2462包含留出目标的同行均值特征每只债券都有一个特征:同一发行人-年份桶中债券的实现违约率平均值,这个均值是在全样本上算的。为什么这比普通缩放泄漏更糟?机器学习中等essay未尝试面试订阅2463调完 bug 之后继续复用测试集模型先在测试集上评估,随后发现一个 bug,修复代码后又用同一测试集来验证修复并在两个修正版之间做选择。为什么第二次使用已经不是干净的测试?机器学习中等essay未尝试面试订阅2464不碰测试标签并不够有人辩称不存在泄漏,因为代码从未访问测试标签。给出这个辩护在真实机器学习流水线里为什么会失效的核心原因。机器学习困难essay未尝试面试订阅2465为什么会需要嵌套验证如果同一份验证集被反复用于模型族选择、特征工程和阈值调节,为什么从概念上说需要第二层外部留出集或嵌套流程?机器学习困难essay未尝试面试订阅2466做泄漏审查时该审什么你在审计一个流水线是否泄漏。除了查看最终 dataframe 的切分位置之外,代码路径里最值得优先检查的是什么?机器学习简单essay未尝试免费