INTERVIEW PREP

数学与非代码面试题

覆盖数学、概率、统计、脑筋急转弯、机器学习和金融。这里负责筛选和进入单题；编程题使用独立的 LeetCode 式 coding lab。

做诊断按领域练习按面试风格练习代码题库

题目: 4169
领域: 8
当前筛选: 89

第 2 / 5 页

非代码面试题

显示 20 / 89 道匹配题目

答题状态：未尝试未正确已正确

ID题目领域难度题型进度权限

2465为什么会需要嵌套验证如果同一份验证集被反复用于模型族选择、特征工程和阈值调节，为什么从概念上说需要第二层外部留出集或嵌套流程？机器学习困难essay未尝试面试订阅 2466做泄漏审查时该审什么你在审计一个流水线是否泄漏。除了查看最终 dataframe 的切分位置之外，代码路径里最值得优先检查的是什么？机器学习简单essay未尝试免费 2467无监督预处理仍会扭曲评估为什么像 PCA 或分位数归一化这样的无监督步骤如果在所有样本上拟合，仍然会让最终测试误差显得过于乐观？机器学习简单essay未尝试免费 2468分组泄漏还会抬高置信度为什么训练集和测试集之间的实体重叠通常还会让置信区间和模型稳定性评估看起来比真实情况更好？机器学习中等essay未尝试面试订阅 2469为什么点时特征库很重要团队说只要统一使用最新的 vendor 表，就能避免泄漏，因为这些值更准确。关于真实部署环境，他们忽略了什么核心点？机器学习中等essay未尝试免费 2470看到测试集构成后再定稀有类别阈值如果你在看到测试集中出现了多少稀有类别之后，才决定保留类别所需的最小频数阈值，为什么这已经是被污染的设计决策？机器学习困难essay未尝试面试订阅 2511为什么 L1 的尖角会产生稀疏性 11为什么人们常用 L1 球的几何形状来解释 lasso 会产生稀疏解？机器学习简单essay未尝试免费 2513为什么相关特征会让纯 lasso 难受 17为什么当多个特征高度相关且预测力相近时，纯 lasso 往往会表现得很不稳定？机器学习中等essay未尝试面试订阅 2574为什么 bagging 最能帮助不稳定学习器 10为什么 bagging 通常对深树帮助很大，却对本来就稳定的学习器帮助较小？机器学习中等essay未尝试免费 2579由方差地板反推树相关性 23单棵树的方差是 6，而一个非常大的森林的方差似乎稳定在 1.8。隐含的树间相关系数 rho 是多少？机器学习中等数值题未尝试面试订阅 2580为什么增加树数通常不会制造经典意义上的过拟合 15为什么给随机森林继续加树，通常只是收益趋于平台，而不会出现某些单模型家族那种爆炸式过拟合？机器学习困难essay未尝试面试订阅 2599为什么 boosting 主要是在压偏差 9为什么 boosting 通常被描述成“主要降偏差”的方法，而不是“主要降方差”的方法？机器学习中等essay未尝试免费 2607为什么过深的基树会抵消 shrinkage 的纪律性 15为什么一个非常深的基树，会削弱“小学习率”本来带来的正则化效果？机器学习简单essay未尝试免费 2646嵌套交叉验证中的模型拟合次数某团队使用 5 个外层折。在每个外层训练集内部，他们用 4 折 CV 评估 6 组超参数，随后再用整个外层训练集把选中的模型重拟合一次。总共会发生多少次模型拟合？机器学习简单数值题未尝试免费 2647为什么重复实体数据更适合分组 CV为什么当每个实体会反复出现、模型还能识别实体特征时，按行做交叉验证并不合适？机器学习中等essay未尝试免费 2648为什么带重叠滚动特征时随机 k 折无效为什么当每个特征向量都依赖一个 20 天滚动历史时，随机 k 折交叉验证会失效？机器学习简单essay未尝试免费 2649月度面板里能放下多少个扩展窗口折你有 60 个月的数据。每个扩展窗口折用前 24 个月训练、接下来的 6 个月验证，然后整体向前推进 6 个月。总共能放下多少个验证折？机器学习中等数值题未尝试免费 2650清除重叠和禁运后剩下的训练天数一个 100 天的事件研究样本把中间连续 20 天作为验证块。标签向前看 5 天，并且在验证块两侧各加 2 天禁运。最终还能用于训练的天数是多少？机器学习困难数值题未尝试面试订阅 2651为什么重复 CV 的多次结果不是独立实验为什么从业者不应该把 20 次重复 CV 的得分当成 20 个相互独立的实验？机器学习简单essay未尝试免费 2653分组交叉验证中每折的训练样本数共有 12 个发行人，每个发行人贡献 5 条样本。在 3 折分组交叉验证中，每次留出 4 个发行人。每一折训练会使用多少条样本？机器学习中等数值题未尝试面试订阅