INTERVIEW PREP

数学与非代码面试题

覆盖数学、概率、统计、脑筋急转弯、机器学习和金融。这里负责筛选和进入单题；编程题使用独立的 LeetCode 式 coding lab。

做诊断按领域练习按面试风格练习代码题库

题目: 4169
领域: 8
当前筛选: 89

第 3 / 5 页

非代码面试题

显示 20 / 89 道匹配题目

答题状态：未尝试未正确已正确

ID题目领域难度题型进度权限

2436为什么业务目标和训练损失可能不同 23为什么“用一种损失训练模型，但用另一种业务指标评估最终决策”可能是合理的？机器学习简单essay未尝试免费 2437为什么 Huber 损失位于平方损失与绝对损失之间为什么 Huber 损失常被描述为“介于平方损失和绝对损失之间”？机器学习中等essay未尝试面试订阅 2438为什么凸性会让“平均预测”变得安全为什么损失函数的凸性会支持这样一种直觉：把相似的预测做平均通常不会太吃亏？机器学习困难essay未尝试面试订阅 2439为什么不对称损失会把最优目标从均值推开为什么不对称损失通常会让最优常数预测偏离目标分布的均值？机器学习困难essay未尝试面试订阅 2440为什么重尾噪声会让人远离纯平方损失 15为什么当残差分布带有罕见但极端的异常值时，纯平方损失通常不是一个好的默认选项？机器学习中等derivation未尝试面试订阅 2441数值计算加权对数损失的 Bayes 概率 20如果在加权对数损失中 p = 0.3、alpha = 4、beta = 1，最优的 Bayes 概率 q* 是多少？机器学习简单数值题未尝试免费 2442为什么严格真诚损失的重要性不止体现在排序 24为什么即使最终系统还会自己挑选操作阈值，严格真诚的概率损失仍然很有价值？机器学习简单essay未尝试免费 2443加权对数损失会把 Bayes 概率拉向代价更高的类别 16为什么类别加权的对数损失会把最优报告概率推向权重更大的那一类？机器学习中等derivation未尝试面试订阅 2444为什么分位数损失在风险预测里有用 17为什么当目标是类 VaR 的预测而不是均值预测时，pinball 损失会显得自然？机器学习中等derivation未尝试面试订阅 2445为什么尾部预测需要与尾部对齐的损失 25为什么当真实业务任务关心的是极端尾部分位数时，去优化普通平方损失往往是一个错误？机器学习困难essay未尝试面试订阅 2446泄漏目标编码隐含出的验证集正样本数某个类别在训练集中出现 40 次，其中 18 次为正；在验证集中又出现 10 次。目标编码器错误地在训练集和验证集一起拟合，并给这个类别输出 0.56。这个编码实际上隐含使用了多少个验证集正样本？机器学习简单数值题未尝试免费 2447在全样本拟合缩放器后训练均值的偏移某个特征在 80 条训练样本上的均值为 10，在 20 条测试样本上的均值为 14。缩放器错误地在全部 100 条样本上拟合，并使用标准差 5。用这个泄漏后的缩放器变换后，训练块的平均标准化值是多少？机器学习简单数值题未尝试免费 2448全样本类别权重隐含出的留出集基准率训练集有 100 个标签，其中 30 个为正。一个类别权重程序错误地在全部 125 个标签上拟合，并报告整体正例率为 0.36。那 25 个留出标签中的正例率是多少？机器学习中等数值题未尝试面试订阅 2449悄悄使用留出样本的发行人去均值对某个发行人来说，3 条训练样本的和为 12。流水线错误地用该发行人 5 条全样本计算出的均值 3.6 去做去均值。这个发行人两条留出样本的和是多少？机器学习中等数值题未尝试面试订阅 2451因留出样本而存活的稀有类别某个类别预处理器只保留出现次数至少为 5 的水平。仅看训练集时，水平 Z 出现 4 次。错误地在全样本上拟合后，Z 的频数变成 7 并被保留。这个泄漏是由多少条留出集 Z 样本造成的？机器学习简单数值题未尝试免费 2452把未来重述数据并入历史特征研究员把几个月后才公布的重述财务数据接到原始交易日上，再对这些原始日期做回测。即使完全没碰测试标签，这为什么仍然是切分纪律失败？机器学习中等essay未尝试面试订阅 2453在全样本面板上选尾部截断阈值流水线在切分之前，就用全样本面板计算出的 1% 和 99% 分位数来截断利差特征。即使这个截断规则不使用标签，为什么它仍然会偏高测试分数？机器学习中等essay未尝试面试订阅 2454切分前先做特征筛选团队先在全数据集上按与目标的相关性给 5,000 个候选特征排序，保留前 30 个，然后才切分训练集和测试集。为什么之后再切分也救不了这个实验？机器学习中等essay未尝试面试订阅 2455研究过程中反复偷看验证集研究员不断尝试新的特征变换，并只保留那些能提升同一个验证分数的变换。为什么验证集此时不再是一个干净的模型选择工具？机器学习困难essay未尝试面试订阅 2456按行切分而不是按发行人切分每个发行人都会贡献很多不同日期的观测。即使目标变量是按日期分别定义的，为什么按行随机切分仍然可能高估表现？机器学习简单essay未尝试免费