第 2 / 2 页
非代码面试题
显示 6 / 26 道匹配题目
答题状态:未尝试未正确已正确
ID题目领域难度题型进度权限
2637ReLU 的局部导数 10对于 ReLU(z)=max(0,z),在 z>0 与 z<0 两种情况下,反向传播分别使用什么导数?机器学习中等derivation未尝试免费2638残差路径梯度的数值计算 19某个标量残差块满足 y=x+f(x),其中 f(x)=3x 2。x=1 时的 dy/dx 是多少?机器学习中等数值题未尝试免费2639恒定梯度下动量的稳态值 11若 v t = beta v t-1 + g,且梯度 g 为常数、|beta|<1,那么 v t 会收敛到什么常数?机器学习困难derivation未尝试免费2640余弦衰减调度公式 12某个学习率在 T 个 step 内用余弦退火从 eta max 衰减到 eta min。请写出第 t 步的 eta t。机器学习困难derivation未尝试免费2642BatchNorm 运行均值更新公式 13某个 BatchNorm 层按 mu new = m mu old + (1-m) mu batch 更新运行均值。这个公式在操作上意味着什么?机器学习简单derivation未尝试免费2643向量参数上的裁剪加权重衰减计算 25参数向量当前为 w t=(3,4)。其梯度是 g=(6,8),范数为 10。先做阈值为 5 的全局范数裁剪,再做学习率 eta=0.1、lambda=0.1 的解耦权重衰减更新。新的参数向量是多少?机器学习中等数值题未尝试面试订阅