第 1 / 4 页
非代码面试题
显示 20 / 73 道匹配题目
答题状态:未尝试未正确已正确
ID题目领域难度题型进度权限
2621残差块的梯度公式 1一个标量残差块输出 y = x + f(x)。推导 dy/dx。机器学习简单derivation未尝试免费2622全局范数裁剪公式 2某个梯度向量 g 的范数 ||g|| 大于裁剪阈值 c。请推导标准全局范数裁剪后的梯度。机器学习简单derivation未尝试免费2623一次动量更新的数值计算 15设动量按 v t = beta v t-1 + g t 更新,其中 beta=0.9、前一时刻速度 v t-1 =0.5、当前梯度 g t=2。v t 是多少?机器学习中等数值题未尝试免费2624动量项展开成几何级数 3若动量满足 v t = beta v t-1 + g t,请把 v t 展开成 v 0 与过去梯度 g 1,...,g t 的表达式。机器学习中等derivation未尝试免费2625解耦权重衰减的更新公式 4在解耦权重衰减下,给定学习率 eta、衰减系数 lambda、当前参数 w t 和梯度 g t,推导 w t+1 。机器学习困难derivation未尝试免费2626全局范数裁剪的数值计算 16梯度向量 g=(6,8),其范数为 10。若裁剪阈值是 5,裁剪后得到什么梯度?机器学习简单数值题未尝试免费2627线性 warmup 调度公式 5学习率在 T 个 step 内从 0 线性 warmup 到 eta max。请推导 warmup 阶段第 t 步的 eta t。机器学习中等derivation未尝试免费2628为什么残差连接能帮助深网训练 20为什么残差连接通常会让非常深的网络更容易优化?机器学习中等essay未尝试免费2629从零初始化展开 EMA 公式 6设 m t = beta m t-1 + (1-beta) x t,且 m 0=0。把 m t 展开成 x 1,...,x t 的显式加权和。机器学习中等derivation未尝试免费2630为什么 BatchNorm 会在分布漂移下出问题 21为什么一个训练时依赖 BatchNorm 表现很好的网络,在部署分布发生漂移后,推理时却可能表现异常?机器学习困难essay未尝试免费2631共享参数的梯度会沿多条路径相加 7某个参数 w 被两条分支共享使用,这两条分支对总损失的贡献分别是 L 1(w) 与 L 2(w)。那么 d(L 1+L 2)/dw 等于什么?机器学习简单derivation未尝试免费2632warmup 学习率的数值计算 17某个线性 warmup 会在 10 个 step 内把学习率从 0 拉到 0.001。warmup 的第 t=3 步使用的学习率是多少?机器学习简单数值题未尝试免费2633LayerNorm 对整体平移的不变性 8忽略可学习仿射参数时,为什么给一个向量的每个坐标都加上同一个常数 a,不会改变 LayerNorm 之后的激活?机器学习中等derivation未尝试免费2634batch 平均损失的梯度 9若一个 minibatch 的损失是平均形式 L = (1/B) sum i=1 B L i,请用单样本梯度推导 dL/dw。机器学习困难derivation未尝试免费2635为什么 warmup 对大 batch 训练有帮助 22为什么在使用很大的 batch 训练时,学习率 warmup 往往会有帮助?机器学习困难essay未尝试免费2636解耦权重衰减的数值计算 18某个标量参数当前值为 w t=2,梯度 g t=0.5,学习率 eta=0.1,解耦权重衰减 lambda=0.05。w t+1 是多少?机器学习简单数值题未尝试免费2637ReLU 的局部导数 10对于 ReLU(z)=max(0,z),在 z>0 与 z<0 两种情况下,反向传播分别使用什么导数?机器学习中等derivation未尝试免费2638残差路径梯度的数值计算 19某个标量残差块满足 y=x+f(x),其中 f(x)=3x 2。x=1 时的 dy/dx 是多少?机器学习中等数值题未尝试免费2639恒定梯度下动量的稳态值 11若 v t = beta v t-1 + g,且梯度 g 为常数、|beta|<1,那么 v t 会收敛到什么常数?机器学习困难derivation未尝试免费2640余弦衰减调度公式 12某个学习率在 T 个 step 内用余弦退火从 eta max 衰减到 eta min。请写出第 t 步的 eta t。机器学习困难derivation未尝试免费