INTERVIEW PREP

数学与非代码面试题

覆盖数学、概率、统计、脑筋急转弯、机器学习和金融。这里负责筛选和进入单题;编程题使用独立的 LeetCode 式 coding lab。

题目
4169
领域
8
当前筛选
612

13 / 31

非代码面试题

显示 20 / 612 道匹配题目

答题状态:未尝试未正确已正确
2462包含留出目标的同行均值特征每只债券都有一个特征:同一发行人-年份桶中债券的实现违约率平均值,这个均值是在全样本上算的。为什么这比普通缩放泄漏更糟?机器学习中等essay未尝试面试订阅2463调完 bug 之后继续复用测试集模型先在测试集上评估,随后发现一个 bug,修复代码后又用同一测试集来验证修复并在两个修正版之间做选择。为什么第二次使用已经不是干净的测试?机器学习中等essay未尝试面试订阅2464不碰测试标签并不够有人辩称不存在泄漏,因为代码从未访问测试标签。给出这个辩护在真实机器学习流水线里为什么会失效的核心原因。机器学习困难essay未尝试面试订阅2465为什么会需要嵌套验证如果同一份验证集被反复用于模型族选择、特征工程和阈值调节,为什么从概念上说需要第二层外部留出集或嵌套流程?机器学习困难essay未尝试面试订阅2466做泄漏审查时该审什么你在审计一个流水线是否泄漏。除了查看最终 dataframe 的切分位置之外,代码路径里最值得优先检查的是什么?机器学习简单essay未尝试免费2467无监督预处理仍会扭曲评估为什么像 PCA 或分位数归一化这样的无监督步骤如果在所有样本上拟合,仍然会让最终测试误差显得过于乐观?机器学习简单essay未尝试免费2468分组泄漏还会抬高置信度为什么训练集和测试集之间的实体重叠通常还会让置信区间和模型稳定性评估看起来比真实情况更好?机器学习中等essay未尝试面试订阅2469为什么点时特征库很重要团队说只要统一使用最新的 vendor 表,就能避免泄漏,因为这些值更准确。关于真实部署环境,他们忽略了什么核心点?机器学习中等essay未尝试免费2470看到测试集构成后再定稀有类别阈值如果你在看到测试集中出现了多少稀有类别之后,才决定保留类别所需的最小频数阈值,为什么这已经是被污染的设计决策?机器学习困难essay未尝试面试订阅2649月度面板里能放下多少个扩展窗口折你有 60 个月的数据。每个扩展窗口折用前 24 个月训练、接下来的 6 个月验证,然后整体向前推进 6 个月。总共能放下多少个验证折?机器学习中等数值题未尝试免费2650清除重叠和禁运后剩下的训练天数一个 100 天的事件研究样本把中间连续 20 天作为验证块。标签向前看 5 天,并且在验证块两侧各加 2 天禁运。最终还能用于训练的天数是多少?机器学习困难数值题未尝试面试订阅2651为什么重复 CV 的多次结果不是独立实验为什么从业者不应该把 20 次重复 CV 的得分当成 20 个相互独立的实验?机器学习简单essay未尝试免费2653分组交叉验证中每折的训练样本数共有 12 个发行人,每个发行人贡献 5 条样本。在 3 折分组交叉验证中,每次留出 4 个发行人。每一折训练会使用多少条样本?机器学习中等数值题未尝试面试订阅2656标签窗口重叠时为什么不能随机按行做 CV如果每个标签都依赖未来 5 个交易日,而相邻样本的标签窗口彼此重叠,为什么普通的按行随机交叉验证会严重高估表现?机器学习简单essay未尝试免费2657为什么折间波动不等于部署误差的标准误为什么各折得分的标准差,不能自动被解释成未来生产表现的标准误?机器学习简单essay未尝试免费2658反复查看各折结果本身就是调参通道研究员反复查看每一折里哪些日期表现差,再据此修改特征。即使没有正式的超参数优化器,为什么这仍然是过拟合?机器学习中等essay未尝试面试订阅2662为什么重叠验证窗口会让得分汇总更麻烦为什么在对重叠验证窗口上的表现取平均时,从业者需要格外小心?机器学习中等essay未尝试面试订阅2667面对重复实体时,按类别分层还不够当同一发行人反复出现且发行人身份本身带有预测信息时,为什么按类别分层的交叉验证仍然可能失败得很厉害?机器学习简单essay未尝试免费2668即使特征只看过去,为什么仍然需要禁运假设特征只使用过去价格,但标签依赖于一个未来事件窗口内的收益。为什么在验证块周围仍然可能需要设置禁运区?机器学习中等essay未尝试面试订阅2673相反市场状态下的平均边际收益某个信号在平静市场的 70% 日期里赚 +6bp,而在压力市场的 30% 日期里亏 -10bp。它的无条件日均边际收益是多少(单位:bp)?机器学习中等数值题未尝试面试订阅