INTERVIEW PREP

数学与非代码面试题

覆盖数学、概率、统计、脑筋急转弯、机器学习和金融。这里负责筛选和进入单题;编程题使用独立的 LeetCode 式 coding lab。

题目
4169
领域
8
当前筛选
91

5 / 5

非代码面试题

显示 11 / 91 道匹配题目

答题状态:未尝试未正确已正确
2622全局范数裁剪公式 2某个梯度向量 g 的范数 ||g|| 大于裁剪阈值 c。请推导标准全局范数裁剪后的梯度。机器学习简单derivation未尝试免费2628为什么残差连接能帮助深网训练 20为什么残差连接通常会让非常深的网络更容易优化?机器学习中等essay未尝试免费2629从零初始化展开 EMA 公式 6设 m t = beta m t-1 + (1-beta) x t,且 m 0=0。把 m t 展开成 x 1,...,x t 的显式加权和。机器学习中等derivation未尝试免费2633LayerNorm 对整体平移的不变性 8忽略可学习仿射参数时,为什么给一个向量的每个坐标都加上同一个常数 a,不会改变 LayerNorm 之后的激活?机器学习中等derivation未尝试免费2645为什么全局范数裁剪会保留方向 14为什么在触发裁剪时,全局范数裁剪只会改变梯度向量的大小,而不会改变它的方向?机器学习困难derivation未尝试面试订阅2655为什么稀疏数据下扩张窗口可能优于滚动窗口为什么当序列较短、存在漂移但并不剧烈时,扩张窗口 CV 有时会优于滚动窗口设计?机器学习困难essay未尝试面试订阅2665为什么过小的折会夸大正则化的吸引力为什么当训练折很小时,强正则模型看起来可能会比它们在完整训练集上更有优势?机器学习困难essay未尝试面试订阅2666为什么外层折之间的分歧本身就有信息如果嵌套 CV 的不同外层折总是选出不同的超参数,这通常说明了什么?机器学习简单essay未尝试免费2680为什么很低的 R 平方仍可能有价值却很难验证为什么一个解释力很小的信号仍可能有经济价值,但同时又特别难被有说服力地验证?机器学习困难essay未尝试面试订阅2683为什么过长的训练窗口可能学到的是错误的世界为什么在金融问题里,增加更多历史年份虽然会降低估计方差,却仍可能让模型表现更差?机器学习中等essay未尝试面试订阅2684为什么短窗口虽然自适应却也更容易来回打脸为什么短滚动窗口虽然能更快适应新状态,但又会让参数估计明显更不稳定?机器学习困难essay未尝试面试订阅