第 2 / 2 页
非代码面试题
显示 5 / 25 道匹配题目
答题状态:未尝试未正确已正确
ID题目领域难度题型进度权限
2641为什么裁剪能治爆炸却治不了消失 23为什么梯度裁剪是处理梯度爆炸的自然办法,却不是解决梯度消失的办法?机器学习简单essay未尝试免费2642BatchNorm 运行均值更新公式 13某个 BatchNorm 层按 mu new = m mu old + (1-m) mu batch 更新运行均值。这个公式在操作上意味着什么?机器学习简单derivation未尝试免费2643向量参数上的裁剪加权重衰减计算 25参数向量当前为 w t=(3,4)。其梯度是 g=(6,8),范数为 10。先做阈值为 5 的全局范数裁剪,再做学习率 eta=0.1、lambda=0.1 的解耦权重衰减更新。新的参数向量是多少?机器学习中等数值题未尝试面试订阅2644为什么 LayerNorm 在序列与在线场景里更讨喜 24为什么在序列模型或在线推理场景里,人们常常更偏好 LayerNorm 而不是 BatchNorm?机器学习中等essay未尝试面试订阅2645为什么全局范数裁剪会保留方向 14为什么在触发裁剪时,全局范数裁剪只会改变梯度向量的大小,而不会改变它的方向?机器学习困难derivation未尝试面试订阅