← 返回数学题库
4316机器学习简单数值题short

注意力分数数量

题目

一个 Transformer 层处理 L=256 个 token,头数 H=8。不考虑 value 维度时,所有头总共会形成多少个原始注意力分数条目?

解题计时

0:00

提交作答时记录,用于后续平均用时统计。

你的答案