← 返回数学题库
2633机器学习中等derivationmedium

LayerNorm 对整体平移的不变性 8

题目

忽略可学习仿射参数时,为什么给一个向量的每个坐标都加上同一个常数 a,不会改变 LayerNorm 之后的激活?

解题计时

0:00

提交作答时记录,用于后续平均用时统计。