题目
一个全注意力模型使用 L=1024 个 token,并以 float16 存储每个头的一张注意力分数矩阵。一个头的分数矩阵大约占多少内存?
解题计时
0:00
提交作答时记录,用于后续平均用时统计。
你的答案
只填写数值本身,单位 MB 已固定在输入框右侧。