INTERVIEW PREP

数学与非代码面试题

覆盖数学、概率、统计、脑筋急转弯、机器学习和金融。这里负责筛选和进入单题；编程题使用独立的 LeetCode 式 coding lab。

做诊断按领域练习按面试风格练习代码题库

题目: 4169
领域: 8
当前筛选: 25

第 2 / 2 页

非代码面试题

显示 5 / 25 道匹配题目

答题状态：未尝试未正确已正确

ID题目领域难度题型进度权限

2641为什么裁剪能治爆炸却治不了消失 23为什么梯度裁剪是处理梯度爆炸的自然办法，却不是解决梯度消失的办法？机器学习简单essay未尝试免费 2642BatchNorm 运行均值更新公式 13某个 BatchNorm 层按 mu new = m mu old + (1-m) mu batch 更新运行均值。这个公式在操作上意味着什么？机器学习简单derivation未尝试免费 2643向量参数上的裁剪加权重衰减计算 25参数向量当前为 w t=(3,4)。其梯度是 g=(6,8)，范数为 10。先做阈值为 5 的全局范数裁剪，再做学习率 eta=0.1、lambda=0.1 的解耦权重衰减更新。新的参数向量是多少？机器学习中等数值题未尝试面试订阅 2644为什么 LayerNorm 在序列与在线场景里更讨喜 24为什么在序列模型或在线推理场景里，人们常常更偏好 LayerNorm 而不是 BatchNorm？机器学习中等essay未尝试面试订阅 2645为什么全局范数裁剪会保留方向 14为什么在触发裁剪时，全局范数裁剪只会改变梯度向量的大小，而不会改变它的方向？机器学习困难derivation未尝试面试订阅