1209 字
6 分钟
自注意力机制(Self-Attention)深度解构:从2017到2026的十年演进

引言#

自注意力机制(Self-Attention)于2017年《Attention is All You Need》论文中正式提出,彻底改变了序列建模范式。

它解决了RNN/LSTM两大核心痛点:

  • 串行计算瓶颈 → 无法并行训练大模型
  • 长距离依赖衰减 → 有效上下文长度受限

到2026年,自注意力仍是Decoder-only LLM(Llama 4、Grok-3、Qwen 3、Claude 4等)、Vision Transformer多模态大模型(LLaVA、Qwen-VL、Sora后继者等)的核心组件。尽管Mamba、RWKV、xLSTM等线性复杂度架构在推理效率与超长上下文上表现出色,经典自注意力 + 高效内核优化(FlashAttention系列)仍是最稳健、可解释的选择。


1. 自注意力的核心三要素:Q / K / V#

给定输入序列嵌入矩阵 XRn×d\mathbf{X} \in \mathbb{R}^{n \times d}(n = 序列长度,d = 模型维度),自注意力通过三个可学习投影生成:

Q=XWQ,K=XWK,V=XWV\mathbf{Q} = \mathbf{X} \mathbf{W}^Q, \quad \mathbf{K} = \mathbf{X} \mathbf{W}^K, \quad \mathbf{V} = \mathbf{X} \mathbf{W}^V

其中 WQ,WK,WVRd×dk\mathbf{W}^Q, \mathbf{W}^K, \mathbf{W}^V \in \mathbb{R}^{d \times d_k}dkd_k 通常等于 d/hd / h(h 为头数)。

直觉类比

  • Query:我在寻找什么信息?
  • Key:我能提供什么匹配线索?
  • Value:如果匹配上了,我贡献什么内容?

2. 缩放点积注意力完整公式#

经典Scaled Dot-Product Attention

Attention(Q,K,V)=softmax(QKdk)V\text{Attention}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = \text{softmax}\left( \frac{\mathbf{Q} \mathbf{K}^\top}{\sqrt{d_k}} \right) \mathbf{V}

关键设计点解释

  • 点积:高效计算相似度(硬件友好)
  • 缩放 dk\sqrt{d_k}:防止点积方差随维度增大而爆炸,导致softmax梯度趋零
  • softmax:将原始分数归一化为概率分布,确保权重和为1

3. 多头注意力(Multi-Head Attention)#

单头只能捕捉单一语义关系。多头并行计算h个独立的注意力头,再拼接结果:

MultiHead(Q,K,V)=Concat(head1,,headh)WO\text{MultiHead}(\mathbf{Q},\mathbf{K},\mathbf{V}) = \text{Concat}(\text{head}_1, \dots, \text{head}_h) \mathbf{W}^O

其中:

headi=Attention(QWiQ,KWiK,VWiV)\text{head}_i = \text{Attention}(\mathbf{Q} \mathbf{W}_i^Q, \mathbf{K} \mathbf{W}_i^K, \mathbf{V} \mathbf{W}_i^V)

2026年主流设置

  • 小模型(<3B):8–16头
  • 中大型模型(7B–70B):32–64头
  • 超大规模(>100B):128头甚至更多(Llama 3 405B 使用128头)

多头让模型同时关注句法、语义、指代、长程共现等多种关系。


4. 自注意力 vs. 传统序列模型(2026视角对比)#

特性RNN / LSTM / GRU自注意力 (Transformer)2026年高效替代 (Mamba / xLSTM 等)
时间/空间复杂度O(n d²)O(n² d)O(n d) 或 O(n log n)
并行性差(串行)极强(所有token同时计算)极强
长程依赖路径长度O(n)(随距离线性增长)O(1)(全局直接连接)O(1) ~ O(log n)
内存峰值O(n d)O(n²)(注意力矩阵)O(n)
推理时状态保存O(d)O(n d)(KV Cache)O(d) 或 O(k d)(k<<n)
当前主流场景边缘实时小模型大多数LLM、ViT、多模态超长上下文、推理优先、边缘部署

5. 位置信息:从正弦编码到RoPE主导#

自注意力本身置换不变(Permutation Invariant),必须显式注入位置信息。

演进路线(2026现状):

  1. 原版正弦/余弦(2017):Transformer原论文使用,现已较少
  2. 相对位置偏置(T5、PaLM):在注意力分数上加偏置
  3. ALiBi(2022):线性距离衰减偏置,长度外推能力强
  4. RoPE(Rotary Position Embedding,2021–2026主流):通过旋转矩阵直接作用于Q/K,已成为Llama、Grok、Qwen、Mistral、DeepSeek等几乎所有现代LLM的标配

RoPE优势:长度外推友好、相对位置自然、计算高效。


6. 工程优化:从O(n²)到可接受的代价#

2023–2026年关键突破

  • FlashAttention(2022) → FlashAttention-2(2023) → FlashAttention-3(2024–2025):IO感知融合内核,训练/推理速度提升2–8倍,显存占用大幅下降
  • RingAttention / Blockwise Parallel:分布式长序列训练
  • Multi-Query / Group-Query Attention(MQA/GQA):大幅减少KV Cache大小(Llama 2/3、Grok等广泛采用)
  • PagedAttention(vLLM):虚拟内存式KV Cache管理

这些优化让自注意力在128k–1M上下文下仍可高效运行。


7. 2026年自注意力的真实应用图景#

  • 语言模型:Decoder-only Transformer(99%+主流LLM)核心仍是自注意力 + RoPE + RMSNorm + SwiGLU + GQA
  • 视觉:ViT、Swin V3、InternViT等纯自注意力或混合架构已全面主导分类/检测/分割
  • 多模态:文本-图像/视频对齐、生成(Sora后继、Runway Gen-3等)依赖跨模态自注意力
  • 高效替代崛起:Mamba-2、Jamba(Mamba+Transformer混合)、xLSTM在推理速度、1M+上下文、边缘设备上快速抢占份额

总结与前瞻#

自注意力机制的核心贡献在于:将序列建模从“局部迭代”升级为“全局关联”,为大规模并行训练与长程建模打开了大门。

2026年实用判断

  • 追求最高精度与通用性 → 坚持经典多头自注意力 + FlashAttention-3 + RoPE + GQA
  • 追求极致推理速度 / 超长上下文 / 低功耗 → 优先考虑Mamba-2混合、xLSTM、RWKV变体,或GQA+Flash的轻量Transformer
  • 研究方向 → 混合架构、无softmax注意力(ReLU²、Poly-Attention)、可扩展位置编码、硬件协同设计

自注意力不是终点,而是AI架构从“链式”向“全连接式”认知跃迁的起点。

自注意力机制(Self-Attention)深度解构:从2017到2026的十年演进
https://sw.rscclub.website/posts/rgznzzzzyjz/
作者
杨月昌
发布于
2019-07-12
许可协议
CC BY-NC-SA 4.0