INTERVIEW PREP

数学与非代码面试题

覆盖数学、概率、统计、脑筋急转弯、机器学习和金融。这里负责筛选和进入单题;编程题使用独立的 LeetCode 式 coding lab。

题目
4169
领域
8
当前筛选
171

6 / 9

非代码面试题

显示 20 / 171 道匹配题目

答题状态:未尝试未正确已正确
2602为什么即使训练损失下降也需要早停 12为什么即使 boosting 的训练目标还在持续改善,验证表现也可能已经开始恶化?机器学习中等essay未尝试免费2604为什么标签噪声对 boosting 特别伤 13为什么在标签有噪声时,boosting 往往会受伤特别严重?机器学习中等essay未尝试免费2607为什么过深的基树会抵消 shrinkage 的纪律性 15为什么一个非常深的基树,会削弱“小学习率”本来带来的正则化效果?机器学习简单essay未尝试免费2611为什么 boosting 比随机森林更难并行 16为什么 boosting 在轮次之间天生就比随机森林更难并行?机器学习简单essay未尝试免费2614为什么初始预测会影响前几轮学习轨迹 18为什么 boosting 的初始预测 F 0 会影响前几轮的学习轨迹?机器学习中等essay未尝试面试订阅2615为什么校准可能比排序更早恶化 19为什么 boosting 后期有时还能把样本排得很好,但预测分数本身的校准却已经变差?机器学习困难essay未尝试面试订阅2616为什么叶子优先生长会有更高方差 20为什么在 boosting 系统里,叶子优先生长往往比层级式生长更容易带来高方差?机器学习简单essay未尝试免费2618为什么很多次小修正能打败一棵大树 21为什么一串小步加性的 boosting 修正,能打败一棵样本内灵活度相近的大树?机器学习中等essay未尝试面试订阅2619为什么后期验证收益变平仍意味着该停了 22如果 boosting 在训练后期每一轮带来的验证收益已经非常小而且忽上忽下,为什么这通常就是该停下来的强信号?机器学习中等essay未尝试面试订阅2622全局范数裁剪公式 2某个梯度向量 g 的范数 ||g|| 大于裁剪阈值 c。请推导标准全局范数裁剪后的梯度。机器学习简单derivation未尝试免费2628为什么残差连接能帮助深网训练 20为什么残差连接通常会让非常深的网络更容易优化?机器学习中等essay未尝试免费2629从零初始化展开 EMA 公式 6设 m t = beta m t-1 + (1-beta) x t,且 m 0=0。把 m t 展开成 x 1,...,x t 的显式加权和。机器学习中等derivation未尝试免费2633LayerNorm 对整体平移的不变性 8忽略可学习仿射参数时,为什么给一个向量的每个坐标都加上同一个常数 a,不会改变 LayerNorm 之后的激活?机器学习中等derivation未尝试免费2645为什么全局范数裁剪会保留方向 14为什么在触发裁剪时,全局范数裁剪只会改变梯度向量的大小,而不会改变它的方向?机器学习困难derivation未尝试面试订阅2655为什么稀疏数据下扩张窗口可能优于滚动窗口为什么当序列较短、存在漂移但并不剧烈时,扩张窗口 CV 有时会优于滚动窗口设计?机器学习困难essay未尝试面试订阅2665为什么过小的折会夸大正则化的吸引力为什么当训练折很小时,强正则模型看起来可能会比它们在完整训练集上更有优势?机器学习困难essay未尝试面试订阅2666为什么外层折之间的分歧本身就有信息如果嵌套 CV 的不同外层折总是选出不同的超参数,这通常说明了什么?机器学习简单essay未尝试免费2680为什么很低的 R 平方仍可能有价值却很难验证为什么一个解释力很小的信号仍可能有经济价值,但同时又特别难被有说服力地验证?机器学习困难essay未尝试面试订阅2683为什么过长的训练窗口可能学到的是错误的世界为什么在金融问题里,增加更多历史年份虽然会降低估计方差,却仍可能让模型表现更差?机器学习中等essay未尝试面试订阅2684为什么短窗口虽然自适应却也更容易来回打脸为什么短滚动窗口虽然能更快适应新状态,但又会让参数估计明显更不稳定?机器学习困难essay未尝试面试订阅