INTERVIEW PREP

数学与非代码面试题

覆盖数学、概率、统计、脑筋急转弯、机器学习和金融。这里负责筛选和进入单题;编程题使用独立的 LeetCode 式 coding lab。

题目
4169
领域
8
当前筛选
89

4 / 5

非代码面试题

显示 20 / 89 道匹配题目

答题状态:未尝试未正确已正确
2457在交叉验证之前一次性拟合 PCA某个笔记本先在全特征矩阵上做 PCA,再把得到的主成分送进每个交叉验证折。为什么这不是无害的提速优化?机器学习简单essay未尝试免费2458根据测试曲线来选早停轮数团队训练了一个模型,画出随 boosting 轮数变化的测试损失曲线,并汇报测试值最好的那个轮数。为什么这个测试分数已经不能作为最终检验?机器学习中等essay未尝试面试订阅2459用事后修订的指数成分做历史筛选某个回测先用当前指数成分来筛选股票池,再在这个受限股票池上评估历史预测。为什么这同样属于训练/测试纪律问题?机器学习困难essay未尝试面试订阅2460一直用验证集试到某个模型靠运气赢两个候选模型本来很接近。研究员不断微调随机种子和预处理,直到其中一个在同一份验证切片上胜出。为什么这个看起来的胜利应该打折看待?机器学习困难essay未尝试面试订阅2461从未来特征里学习稀有类别合并规则虽然没有用标签,但预处理步骤通过查看全数据集的类别频率来决定哪些稀有行业要被合并。为什么这仍然会让评估过于乐观?机器学习简单essay未尝试免费2462包含留出目标的同行均值特征每只债券都有一个特征:同一发行人-年份桶中债券的实现违约率平均值,这个均值是在全样本上算的。为什么这比普通缩放泄漏更糟?机器学习中等essay未尝试面试订阅2463调完 bug 之后继续复用测试集模型先在测试集上评估,随后发现一个 bug,修复代码后又用同一测试集来验证修复并在两个修正版之间做选择。为什么第二次使用已经不是干净的测试?机器学习中等essay未尝试面试订阅2464不碰测试标签并不够有人辩称不存在泄漏,因为代码从未访问测试标签。给出这个辩护在真实机器学习流水线里为什么会失效的核心原因。机器学习困难essay未尝试面试订阅2465为什么会需要嵌套验证如果同一份验证集被反复用于模型族选择、特征工程和阈值调节,为什么从概念上说需要第二层外部留出集或嵌套流程?机器学习困难essay未尝试面试订阅2466做泄漏审查时该审什么你在审计一个流水线是否泄漏。除了查看最终 dataframe 的切分位置之外,代码路径里最值得优先检查的是什么?机器学习简单essay未尝试免费2467无监督预处理仍会扭曲评估为什么像 PCA 或分位数归一化这样的无监督步骤如果在所有样本上拟合,仍然会让最终测试误差显得过于乐观?机器学习简单essay未尝试免费2468分组泄漏还会抬高置信度为什么训练集和测试集之间的实体重叠通常还会让置信区间和模型稳定性评估看起来比真实情况更好?机器学习中等essay未尝试面试订阅2469为什么点时特征库很重要团队说只要统一使用最新的 vendor 表,就能避免泄漏,因为这些值更准确。关于真实部署环境,他们忽略了什么核心点?机器学习中等essay未尝试免费2470看到测试集构成后再定稀有类别阈值如果你在看到测试集中出现了多少稀有类别之后,才决定保留类别所需的最小频数阈值,为什么这已经是被污染的设计决策?机器学习困难essay未尝试面试订阅4141先验漂移下的后验重标定 1某个判别式模型是在类先验 P(Y=1)=0.5 下训练的,并且对样本 x 输出后验概率 0.7。隔夜之后,基准发生纯先验漂移,新的 P(Y=1)=0.2,但 x 的类条件证据保持不变。此时应使用什么新的后验概率?机器学习中等数值题未尝试面试订阅4146由生成式后验推期望收益 6一个生成式状态模型给出 P(趋势|x)=0.7。如果下一日收益在趋势状态下的期望为 12 个基点,在均值回归状态下的期望为 -4 个基点,那么模型隐含的条件期望收益 E[r|x] 是多少?机器学习中等数值题未尝试面试订阅4148由生成式后验推期望收益 8一个生成式状态模型给出 P(趋势|x)=0.6。如果下一日收益在趋势状态下的期望为 0.015 收益单位,在均值回归状态下的期望为 -0.01 收益单位,那么模型隐含的条件期望收益 E[r|x] 是多少?机器学习中等数值题未尝试面试订阅4149由生成式后验推期望收益 9一个生成式状态模型给出 P(趋势|x)=0.4。如果下一日收益在趋势状态下的期望为 3 收益单位,在均值回归状态下的期望为 1 收益单位,那么模型隐含的条件期望收益 E[r|x] 是多少?机器学习中等数值题未尝试面试订阅4150由生成式后验推期望收益 10一个生成式状态模型给出 P(趋势|x)=0.8。如果下一日收益在趋势状态下的期望为 -2 个基点,在均值回归状态下的期望为 5 个基点,那么模型隐含的条件期望收益 E[r|x] 是多少?机器学习中等数值题未尝试面试订阅4151缺失特征下的生成式分类 1一个两特征的朴素贝叶斯模型采用生成式方式训练,但在预测时 X2 缺失。已知先验 P(Y=1)=0.5,P(X1=1|Y=1)=0.8,P(X1=1|Y=0)=0.3,P(X2=1|Y=1)=0.75,P(X2=1|Y=0)=0.4。现在只观测到 X1=1。问生成式模型应当使用的后验 P(Y=1|X1) 是多少?机器学习中等数值题未尝试面试订阅