INTERVIEW PREP

数学与非代码面试题

覆盖数学、概率、统计、脑筋急转弯、机器学习和金融。这里负责筛选和进入单题；编程题使用独立的 LeetCode 式 coding lab。

做诊断按领域练习按面试风格练习代码题库

题目: 4169
领域: 8
当前筛选: 78

第 3 / 4 页

非代码面试题

显示 20 / 78 道匹配题目

答题状态：未尝试未正确已正确

ID题目领域难度题型进度权限

2599为什么 boosting 主要是在压偏差 9为什么 boosting 通常被描述成“主要降偏差”的方法，而不是“主要降方差”的方法？机器学习中等essay未尝试免费 2602为什么即使训练损失下降也需要早停 12为什么即使 boosting 的训练目标还在持续改善，验证表现也可能已经开始恶化？机器学习中等essay未尝试免费 2604为什么标签噪声对 boosting 特别伤 13为什么在标签有噪声时，boosting 往往会受伤特别严重？机器学习中等essay未尝试免费 2607为什么过深的基树会抵消 shrinkage 的纪律性 15为什么一个非常深的基树，会削弱“小学习率”本来带来的正则化效果？机器学习简单essay未尝试免费 2608两次 shrinkage 更新后的残差 24某个点当前的残差是 6。两轮 boosting 中，它所在区域的叶节点更新分别为 1.5 和 0.8，且两轮学习率都为 eta=0.2。两轮之后还剩多少残差？机器学习中等数值题未尝试免费 2610eta 与 gamma 的缩放互逆不变性 6为什么把每一轮的叶节点更新 gamma m 都乘以 c，同时把学习率 eta 除以 c，会让最终加性得分保持不变？机器学习困难derivation未尝试面试订阅 2611为什么 boosting 比随机森林更难并行 16为什么 boosting 在轮次之间天生就比随机森林更难并行？机器学习简单essay未尝试免费 2613带 L2 正则的区域更新值 7在某个 boosting 区域内，选择一个常数更新 gamma 来最小化 sum i in R (r i-gamma) 2 + lambda gamma 2。记 S = sum i in R r i，n = |R|。推导 gamma。机器学习困难derivation未尝试面试订阅 2614为什么初始预测会影响前几轮学习轨迹 18为什么 boosting 的初始预测 F 0 会影响前几轮的学习轨迹？机器学习中等essay未尝试面试订阅 2615为什么校准可能比排序更早恶化 19为什么 boosting 后期有时还能把样本排得很好，但预测分数本身的校准却已经变差？机器学习困难essay未尝试面试订阅 2616为什么叶子优先生长会有更高方差 20为什么在 boosting 系统里，叶子优先生长往往比层级式生长更容易带来高方差？机器学习简单essay未尝试免费 2617双区域两轮 boosting 计算题 25某个 boosting 模型从 F 0=0 开始，学习率 eta=0.1。第 1 轮里，区域 A 的更新是 +2，区域 B 的更新是 -1；第 2 轮里，区域 A 的更新是 -0.5，区域 B 的更新是 +0.25。对一个始终落在区域 A 的点，以及一个始终落在区域 B 的点，最终预测分别是多少？机器学习简单数值题未尝试免费 2618为什么很多次小修正能打败一棵大树 21为什么一串小步加性的 boosting 修正，能打败一棵样本内灵活度相近的大树？机器学习中等essay未尝试面试订阅 2619为什么后期验证收益变平仍意味着该停了 22如果 boosting 在训练后期每一轮带来的验证收益已经非常小而且忽上忽下，为什么这通常就是该停下来的强信号？机器学习中等essay未尝试面试订阅 2620总函数移动量的上界 8设每一轮 boosting 对任意一个点的预测改变量绝对值都不超过 eta A。这个条件会给 M 轮之后的总预测移动量带来什么上界？机器学习困难derivation未尝试面试订阅 4216归一化 MDI 占比 1一个随机森林报告的平均不纯度下降总贡献为 spread=0.42, imbalance=0.21, id bucket=0.07。问归一化后的特征重要性占比分别是多少？哪一个特征排第一？机器学习简单数值题未尝试面试订阅 4217置换重要性与排序 1一个模型的基准验证集 AUC 是 0.62。分别置换三个特征后，AUC 变成：value signal 对应 0.57，momentum 对应 0.60，zip code 对应 0.61。它们的置换重要性下降是多少？谁排第一？机器学习简单数值题未尝试面试订阅 4218聚合 one-hot 特征组 2一个 sector 特征被拆成三个 one-hot 列，它们的 impurity-gain 重要性分别是 0.04、0.03 和 0.01。另外两个特征的重要性分别是 0.05 和 0.07。如果把这三个 one-hot 列聚合成一个组，那么各组的归一化占比分别是多少？谁排第一？机器学习简单数值题未尝试面试订阅 4219跨树汇总 gain 重要性 3两棵树分别给特征 A 和 B 带来 split gain。Tree 1 的贡献是 A=12、B=5；Tree 2 的贡献是 A=8、B=10。A 和 B 的总归一化 gain 重要性各是多少？机器学习简单数值题未尝试面试订阅 4220以 log loss 衡量置换重要性 4一个模型的基准 log loss 是 0.400。置换特征 X 后，log loss 升到 0.455；置换特征 Y 后，升到 0.420。按 log loss 指标定义，它们的置换重要性各是多少？哪个更重要？机器学习简单数值题未尝试面试订阅