Do transformers need three projections? Systematic study of QKV variants

在人工智能领域，Transformer架构以其革命性的自注意力机制，成为大模型时代的基石。然而，一篇题为 “Do transformers need three projections? Systematic study of QKV variants” 的新研究，却向这一核心设计发起了灵魂拷问：自注意力中的Query、Key、Value三个投影矩阵，是否真的不可或缺？

疑问从何而来？

传统Transformer注意力机制中，输入序列通过三个独立的线性投影层，分别生成Q、K、V三个矩阵。随后利用Q与K的点积计算注意力分数，再与V加权求和得到输出。这一“QKV三投影”设计，自2017年《Attention is All You Need》提出以来，几乎成为公认的标准配置。

“为什么要用三个？减少一个会怎样？换成两个或者共享投影又会如何？”带着这些看似“反常识”的问题，研究团队对QKV的各种变体进行了系统性探索，试图揭示这三个投影在注意力中真正扮演的角色。

系统实验：从“砍掉”到“混搭”

研究者设计了一系列对比实验，涵盖图像分类、语言建模、机器翻译等典型任务。变体包括但不限于：仅保留Q和V投影（取消K投影，用Q或V替代）；共享Q和K投影（让Q和K使用同一组权重）；将三个投影合并为两个（例如Q与V共享）；甚至只用一个投影（将所有输入统一映射）。

实验结果显示，令人惊讶的是，在很多任务上，传统三投影并非最优选择。例如：

在图像分类任务（ImageNet）中，共享Q和K投影（即Q=K）的变体，其准确率仅比标准三投影低0.2%~0.5%，参数量却减少约10%。
在语言建模任务中，取消K投影、仅保留Q和V的结构，在困惑度指标上反而优于标准设计，同时推理速度提升约8%。
而“暴力”地只用一个投影（所有输入共享同一线性变换）虽然性能下降明显，但在某些小规模任务中仍可保持80%以上的原有效果。

为什么“冗余”反而成为优势？

研究进一步分析了注意力分布的特征。他们发现，Q和K投影虽然学习到的特征空间不同，但在很多情况下高度相关——两者都试图衡量“输入之间的匹配程度”。真正的“灵魂”其实藏在V投影中，因为它负责提取被加权聚合的内容。

换句话说，注意力机制的核心功能——动态加权和聚合——对V投影依赖度极高，而对Q和K的独立投影需求并不绝对。Q和K的分离，更多是为了提供更灵活的相似度度量空间，但在实践中，这种灵活性未必每次都带来收益。

启示：效率与性能的再平衡

这一发现对大模型的实际部署具有直接意义。当前大模型动辄数十亿参数，而注意力层中的QKV投影权重占据了相当比例。如果能够简化投影数量而不损失性能，就意味着：更小的模型体积、更快的训练和推理速度、更低的部署成本。

不过，研究者也谨慎指出，变体并非万能。在机器翻译等对语义精确匹配要求极高的任务中，标准三投影仍保持微弱优势。“这是一个权衡问题——在资源受限场景下，简化QKV可能是‘用可接受的小幅精度牺牲换取大幅效率提升’的理性选择。”研究团队在论文中总结道。

未来：是否引发架构变革？

尽管该研究尚未得到同行评议（预印本阶段），但已在AI社区引发热议。有学者认为，这可能导致下一代轻量级Transformer的设计思路转变——不再盲目遵循“三投影”惯例，而是根据任务特性动态选择投影结构。也有反对者指出，当前许多优化技巧（如RoPE位置编码、多头注意力）都建立在三投影基础上，简化后可能带来兼容性问题。

无论如何，这项研究提醒我们：在AI领域，看似“天经地义”的设计未必不可挑战。也许下一次Transformer的进化，就从“砍掉一个投影”开始。

疑问从何而来？

系统实验：从“砍掉”到“混搭”

为什么“冗余”反而成为优势？

启示：效率与性能的再平衡

未来：是否引发架构变革？

相关阅读