← 返回数学题库
4320机器学习简单数值题short

注意力矩阵内存

题目

一个全注意力模型使用 L=1024 个 token,并以 float16 存储每个头的一张注意力分数矩阵。一个头的分数矩阵大约占多少内存?

解题计时

0:00

提交作答时记录,用于后续平均用时统计。

你的答案