4316机器学习简单数值题short
注意力分数数量
题目
一个 Transformer 层处理 L=256 个 token,头数 H=8。不考虑 value 维度时,所有头总共会形成多少个原始注意力分数条目?
解题计时
0:00
提交作答时记录,用于后续平均用时统计。
你的答案
题目
一个 Transformer 层处理 L=256 个 token,头数 H=8。不考虑 value 维度时,所有头总共会形成多少个原始注意力分数条目?
解题计时
0:00
提交作答时记录,用于后续平均用时统计。
你的答案