4326机器学习中等essayshort
序列长度翻倍的成本冲击
题目
一个局部 CNN 的交互规模约为 7L,而一个 Transformer 注意力块的分数对规模约为 L^2。若 L 从 256 翻倍到 512,两者的交互数量分别增长多少倍?哪类架构碰到更陡的扩展墙?
解题计时
0:00
提交作答时记录,用于后续平均用时统计。
你的答案
CNN growth factor
Transformer growth factor
Architecture with sharper scaling wall