在人工智能领域,Transformer架构以其革命性的自注意力机制,成为大模型时代的基石。然而,一篇题为 “Do transformers need three projections? Systematic study of QKV variants” 的新研究,却向这一核心设计发起了灵魂拷问:自注意力中的Query、Key、Value三个投影矩阵,是否真的不可或缺?

疑问从何而来?

传统Transformer注意力机制中,输入序列通过三个独立的线性投影层,分别生成Q、K、V三个矩阵。随后利用Q与K的点积计算注意力分数,再与V加权求和得到输出。这一“QKV三投影”设计,自2017年《Attention is All You Need》提出以来,几乎成为公认的标准配置。

“为什么要用三个?减少一个会怎样?换成两个或者共享投影又会如何?”带着这些看似“反常识”的问题,研究团队对QKV的各种变体进行了系统性探索,试图揭示这三个投影在注意力中真正扮演的角色。

系统实验:从“砍掉”到“混搭”

研究者设计了一系列对比实验,涵盖图像分类、语言建模、机器翻译等典型任务。变体包括但不限于:仅保留Q和V投影(取消K投影,用Q或V替代);共享Q和K投影(让Q和K使用同一组权重);将三个投影合并为两个(例如Q与V共享);甚至只用一个投影(将所有输入统一映射)。

实验结果显示,令人惊讶的是,在很多任务上,传统三投影并非最优选择。例如:

  • 在图像分类任务(ImageNet)中,共享Q和K投影(即Q=K)的变体,其准确率仅比标准三投影低0.2%~0.5%,参数量却减少约10%。
  • 在语言建模任务中,取消K投影、仅保留Q和V的结构,在困惑度指标上反而优于标准设计,同时推理速度提升约8%。
  • 而“暴力”地只用一个投影(所有输入共享同一线性变换)虽然性能下降明显,但在某些小规模任务中仍可保持80%以上的原有效果。

为什么“冗余”反而成为优势?

研究进一步分析了注意力分布的特征。他们发现,Q和K投影虽然学习到的特征空间不同,但在很多情况下高度相关——两者都试图衡量“输入之间的匹配程度”。真正的“灵魂”其实藏在V投影中,因为它负责提取被加权聚合的内容。

换句话说,注意力机制的核心功能——动态加权和聚合——对V投影依赖度极高,而对Q和K的独立投影需求并不绝对。Q和K的分离,更多是为了提供更灵活的相似度度量空间,但在实践中,这种灵活性未必每次都带来收益。

启示:效率与性能的再平衡

这一发现对大模型的实际部署具有直接意义。当前大模型动辄数十亿参数,而注意力层中的QKV投影权重占据了相当比例。如果能够简化投影数量而不损失性能,就意味着:更小的模型体积、更快的训练和推理速度、更低的部署成本。

不过,研究者也谨慎指出,变体并非万能。在机器翻译等对语义精确匹配要求极高的任务中,标准三投影仍保持微弱优势。“这是一个权衡问题——在资源受限场景下,简化QKV可能是‘用可接受的小幅精度牺牲换取大幅效率提升’的理性选择。”研究团队在论文中总结道。

未来:是否引发架构变革?

尽管该研究尚未得到同行评议(预印本阶段),但已在AI社区引发热议。有学者认为,这可能导致下一代轻量级Transformer的设计思路转变——不再盲目遵循“三投影”惯例,而是根据任务特性动态选择投影结构。也有反对者指出,当前许多优化技巧(如RoPE位置编码、多头注意力)都建立在三投影基础上,简化后可能带来兼容性问题。

无论如何,这项研究提醒我们:在AI领域,看似“天经地义”的设计未必不可挑战。也许下一次Transformer的进化,就从“砍掉一个投影”开始。