INTERVIEW PREP

数学与非代码面试题

覆盖数学、概率、统计、脑筋急转弯、机器学习和金融。这里负责筛选和进入单题；编程题使用独立的 LeetCode 式 coding lab。

做诊断按领域练习按面试风格练习代码题库

题目: 4169
领域: 8
当前筛选: 268

第 7 / 14 页

非代码面试题

显示 20 / 268 道匹配题目

答题状态：未尝试未正确已正确

ID题目领域难度题型进度权限

2432离散目标下平方损失的 Bayes actY 以等概率取值 1、1、4、7。什么常数预测会最小化期望平方损失？机器学习简单derivation未尝试免费 2436为什么业务目标和训练损失可能不同 23为什么“用一种损失训练模型，但用另一种业务指标评估最终决策”可能是合理的？机器学习简单essay未尝试免费 2437为什么 Huber 损失位于平方损失与绝对损失之间为什么 Huber 损失常被描述为“介于平方损失和绝对损失之间”？机器学习中等essay未尝试面试订阅 2439为什么不对称损失会把最优目标从均值推开为什么不对称损失通常会让最优常数预测偏离目标分布的均值？机器学习困难essay未尝试面试订阅 2440为什么重尾噪声会让人远离纯平方损失 15为什么当残差分布带有罕见但极端的异常值时，纯平方损失通常不是一个好的默认选项？机器学习中等derivation未尝试面试订阅 2441数值计算加权对数损失的 Bayes 概率 20如果在加权对数损失中 p = 0.3、alpha = 4、beta = 1，最优的 Bayes 概率 q* 是多少？机器学习简单数值题未尝试免费 2442为什么严格真诚损失的重要性不止体现在排序 24为什么即使最终系统还会自己挑选操作阈值，严格真诚的概率损失仍然很有价值？机器学习简单essay未尝试免费 2443加权对数损失会把 Bayes 概率拉向代价更高的类别 16为什么类别加权的对数损失会把最优报告概率推向权重更大的那一类？机器学习中等derivation未尝试面试订阅 2447在全样本拟合缩放器后训练均值的偏移某个特征在 80 条训练样本上的均值为 10，在 20 条测试样本上的均值为 14。缩放器错误地在全部 100 条样本上拟合，并使用标准差 5。用这个泄漏后的缩放器变换后，训练块的平均标准化值是多少？机器学习简单数值题未尝试免费 2449悄悄使用留出样本的发行人去均值对某个发行人来说，3 条训练样本的和为 12。流水线错误地用该发行人 5 条全样本计算出的均值 3.6 去做去均值。这个发行人两条留出样本的和是多少？机器学习中等数值题未尝试面试订阅 2453在全样本面板上选尾部截断阈值流水线在切分之前，就用全样本面板计算出的 1% 和 99% 分位数来截断利差特征。即使这个截断规则不使用标签，为什么它仍然会偏高测试分数？机器学习中等essay未尝试面试订阅 2456按行切分而不是按发行人切分每个发行人都会贡献很多不同日期的观测。即使目标变量是按日期分别定义的，为什么按行随机切分仍然可能高估表现？机器学习简单essay未尝试免费 2457在交叉验证之前一次性拟合 PCA某个笔记本先在全特征矩阵上做 PCA，再把得到的主成分送进每个交叉验证折。为什么这不是无害的提速优化？机器学习简单essay未尝试免费 2461从未来特征里学习稀有类别合并规则虽然没有用标签，但预处理步骤通过查看全数据集的类别频率来决定哪些稀有行业要被合并。为什么这仍然会让评估过于乐观？机器学习简单essay未尝试免费 2462包含留出目标的同行均值特征每只债券都有一个特征：同一发行人-年份桶中债券的实现违约率平均值，这个均值是在全样本上算的。为什么这比普通缩放泄漏更糟？机器学习中等essay未尝试面试订阅 2466做泄漏审查时该审什么你在审计一个流水线是否泄漏。除了查看最终 dataframe 的切分位置之外，代码路径里最值得优先检查的是什么？机器学习简单essay未尝试免费 2467无监督预处理仍会扭曲评估为什么像 PCA 或分位数归一化这样的无监督步骤如果在所有样本上拟合，仍然会让最终测试误差显得过于乐观？机器学习简单essay未尝试免费 2468分组泄漏还会抬高置信度为什么训练集和测试集之间的实体重叠通常还会让置信区间和模型稳定性评估看起来比真实情况更好？机器学习中等essay未尝试面试订阅 2469为什么点时特征库很重要团队说只要统一使用最新的 vendor 表，就能避免泄漏，因为这些值更准确。关于真实部署环境，他们忽略了什么核心点？机器学习中等essay未尝试免费 2476由协方差与方差反推斜率 6在带截距的一元回归中，Cov(x,y)=12，Var(x)=16。OLS 斜率 beta hat 是多少？机器学习简单数值题未尝试免费