第 4 / 32 页
非代码面试题
显示 20 / 622 道匹配题目
答题状态:未尝试未正确已正确
ID题目领域难度题型进度权限
2457在交叉验证之前一次性拟合 PCA某个笔记本先在全特征矩阵上做 PCA,再把得到的主成分送进每个交叉验证折。为什么这不是无害的提速优化?机器学习简单essay未尝试免费2458根据测试曲线来选早停轮数团队训练了一个模型,画出随 boosting 轮数变化的测试损失曲线,并汇报测试值最好的那个轮数。为什么这个测试分数已经不能作为最终检验?机器学习中等essay未尝试面试订阅2459用事后修订的指数成分做历史筛选某个回测先用当前指数成分来筛选股票池,再在这个受限股票池上评估历史预测。为什么这同样属于训练/测试纪律问题?机器学习困难essay未尝试面试订阅2460一直用验证集试到某个模型靠运气赢两个候选模型本来很接近。研究员不断微调随机种子和预处理,直到其中一个在同一份验证切片上胜出。为什么这个看起来的胜利应该打折看待?机器学习困难essay未尝试面试订阅2461从未来特征里学习稀有类别合并规则虽然没有用标签,但预处理步骤通过查看全数据集的类别频率来决定哪些稀有行业要被合并。为什么这仍然会让评估过于乐观?机器学习简单essay未尝试免费2462包含留出目标的同行均值特征每只债券都有一个特征:同一发行人-年份桶中债券的实现违约率平均值,这个均值是在全样本上算的。为什么这比普通缩放泄漏更糟?机器学习中等essay未尝试面试订阅2463调完 bug 之后继续复用测试集模型先在测试集上评估,随后发现一个 bug,修复代码后又用同一测试集来验证修复并在两个修正版之间做选择。为什么第二次使用已经不是干净的测试?机器学习中等essay未尝试面试订阅2464不碰测试标签并不够有人辩称不存在泄漏,因为代码从未访问测试标签。给出这个辩护在真实机器学习流水线里为什么会失效的核心原因。机器学习困难essay未尝试面试订阅2465为什么会需要嵌套验证如果同一份验证集被反复用于模型族选择、特征工程和阈值调节,为什么从概念上说需要第二层外部留出集或嵌套流程?机器学习困难essay未尝试面试订阅2466做泄漏审查时该审什么你在审计一个流水线是否泄漏。除了查看最终 dataframe 的切分位置之外,代码路径里最值得优先检查的是什么?机器学习简单essay未尝试免费2467无监督预处理仍会扭曲评估为什么像 PCA 或分位数归一化这样的无监督步骤如果在所有样本上拟合,仍然会让最终测试误差显得过于乐观?机器学习简单essay未尝试免费2468分组泄漏还会抬高置信度为什么训练集和测试集之间的实体重叠通常还会让置信区间和模型稳定性评估看起来比真实情况更好?机器学习中等essay未尝试面试订阅2469为什么点时特征库很重要团队说只要统一使用最新的 vendor 表,就能避免泄漏,因为这些值更准确。关于真实部署环境,他们忽略了什么核心点?机器学习中等essay未尝试免费2470看到测试集构成后再定稀有类别阈值如果你在看到测试集中出现了多少稀有类别之后,才决定保留类别所需的最小频数阈值,为什么这已经是被污染的设计决策?机器学习困难essay未尝试面试订阅2471由中心化充分统计量求斜率 1在带截距的一元 OLS 中,若中心化充分统计量满足 sum i (x i-xbar)(y i-ybar)=S xy、sum i (x i-xbar) 2=S xx,请推导 beta hat。机器学习简单derivation未尝试免费2472由样本均值与斜率求截距 2推导带截距一元回归中,在已知 beta hat 之后 OLS 截距的表达式。机器学习简单derivation未尝试免费2473缩放单个特征会重缩放对应系数 3如果带截距的 OLS 模型里把特征 x 替换成 x new = c x,在保持所有拟合值不变的前提下,对应系数会怎样变化?机器学习中等derivation未尝试面试订阅2474响应变量整体平移常数 4在带截距的 OLS 模型里,如果把每个目标值都替换成 y i + k,拟合斜率和截距会怎样变化?机器学习中等derivation未尝试面试订阅2475为什么重复特征会导致系数不唯一 5为什么两个完全重复的特征会让 OLS 系数向量不唯一,而拟合预测却仍然可以唯一?机器学习困难essay未尝试面试订阅2476由协方差与方差反推斜率 6在带截距的一元回归中,Cov(x,y)=12,Var(x)=16。OLS 斜率 beta hat 是多少?机器学习简单数值题未尝试免费