← 返回数学题库
4326机器学习中等essayshort

序列长度翻倍的成本冲击

题目

一个局部 CNN 的交互规模约为 7L,而一个 Transformer 注意力块的分数对规模约为 L^2。若 L 从 256 翻倍到 512,两者的交互数量分别增长多少倍?哪类架构碰到更陡的扩展墙?

解题计时

0:00

提交作答时记录,用于后续平均用时统计。

你的答案

CNN growth factor

Transformer growth factor

Architecture with sharper scaling wall