1181 字
6 分钟
Transformer:注意力革命十年回顾与2026年生态全景

引言#

2017年前,RNN/LSTM主导序列任务,但面临两大瓶颈:

  • 串行计算 → 训练/推理无法并行,扩展性差
  • 长距离依赖捕捉困难 → 梯度消失/爆炸限制上下文长度

Transformer 通过自注意力(Self-Attention) + 多头机制 + 位置编码,首次实现了全序列并行 + 任意距离依赖建模,一举奠定了现代AI基础架构。

到2026年:

  • Decoder-only Transformer(GPT、Llama、Grok、Qwen、DeepSeek等)仍是LLM事实标准
  • Encoder-only(BERT后继者)和Encoder-Decoder(T5/BART后继)仍活跃于理解/生成混合任务
  • Vision Transformer (ViT) 及其变体已全面取代CNN,成为CV主流
  • 后Transformer时代已开启:Mamba、RWKV、xLSTM、混合架构在推理速度、内存效率、超长上下文上展现优势,但尚未全面取代

1. 核心机制:缩放点积自注意力(Scaled Dot-Product Attention)#

给定输入序列嵌入 XRn×d\mathbf{X} \in \mathbb{R}^{n \times d}(n=序列长,d=模型维度),自注意力计算:

Q=XWQ,K=XWK,V=XWV\mathbf{Q} = \mathbf{X} \mathbf{W}_Q, \quad \mathbf{K} = \mathbf{X} \mathbf{W}_K, \quad \mathbf{V} = \mathbf{X} \mathbf{W}_V

注意力分数:

Attention(Q,K,V)=softmax(QKdk)V\text{Attention}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = \text{softmax}\left( \frac{\mathbf{Q} \mathbf{K}^\top}{\sqrt{d_k}} \right) \mathbf{V}
  • 缩放因子 dk\sqrt{d_k} 防止点积过大导致softmax梯度饱和
  • 多头注意力:将Q/K/V投影到h个子空间独立计算,再拼接+线性变换
MultiHead(Q,K,V)=Concat(head1,,headh)WO\text{MultiHead}(\mathbf{Q},\mathbf{K},\mathbf{V}) = \text{Concat}(\text{head}_1,\dots,\text{head}_h) \mathbf{W}_O

多头让模型在不同表示子空间捕捉不同语义关系(句法、指代、主题等)。


2. 位置编码:赋予顺序信息#

Transformer无内置位置感,因此添加位置编码(Positional Encoding):

经典正弦/余弦版(原论文):

PE(pos,2i)=sin(pos100002i/d),PE(pos,2i+1)=cos(pos100002i/d)PE_{(pos,2i)} = \sin\left( \frac{pos}{10000^{2i/d}} \right), \quad PE_{(pos,2i+1)} = \cos\left( \frac{pos}{10000^{2i/d}} \right)

现代变体:

  • RoPE(Rotary Position Embedding):旋转查询/键向量,更适合长序列,已成Llama、Grok等主流
  • ALiBi:注意力偏置,随距离线性衰减,训练外推能力强
  • 相对位置编码:常见于T5、PaLM等

3. 完整层结构:前馈 + 残差 + 归一化#

每个Transformer层(Encoder/Decoder)通常包含:

  1. 多头自注意力(或交叉注意力)
  2. 前馈网络(FFN):两层线性 + GELU/SwiGLU激活
  3. 残差连接 + 归一化(LayerNorm或RMSNorm)

典型顺序(post-norm vs pre-norm):

  • 早期:Add & Norm 在子层后
  • 现代LLM(Llama 3、Qwen 2等):pre-norm + RMSNorm 更稳定

4. PyTorch 中的标准实现(2026 常用写法)#

import torch
import torch.nn as nn
class TransformerBlock(nn.Module):
def __init__(self, d_model, nhead, dim_feedforward=2048, dropout=0.1):
super().__init__()
self.self_attn = nn.MultiheadAttention(d_model, nhead, dropout=dropout, batch_first=True)
self.linear1 = nn.Linear(d_model, dim_feedforward)
self.dropout = nn.Dropout(dropout)
self.linear2 = nn.Linear(dim_feedforward, d_model)
self.norm1 = nn.LayerNorm(d_model) # 或 nn.RMSNorm
self.norm2 = nn.LayerNorm(d_model)
self.dropout1 = nn.Dropout(dropout)
self.dropout2 = nn.Dropout(dropout)
self.activation = nn.GELU() # 或 SwiGLU
def forward(self, src, src_mask=None):
src2 = self.self_attn(src, src, src, attn_mask=src_mask)[0]
src = src + self.dropout1(src2)
src = self.norm1(src)
src2 = self.linear2(self.dropout(self.activation(self.linear1(src))))
src = src + self.dropout2(src2)
return self.norm2(src)
# 示例:Decoder-only 风格单层
block = TransformerBlock(d_model=512, nhead=8)

Tips:现代框架(如Hugging Face Transformers)内置FlashAttention-2/3,大幅加速训练/推理。


5. 2026 年 Transformer 生态与三大主流变体#

架构类型代表模型(2026主流)核心特点典型任务
Decoder-onlyGPT-4o, Claude 3.5, Llama 3/4, Grok-2, Qwen 2.5, DeepSeek-V3自回归生成、KV Cache推理、RoPE/RMSNorm对话、代码、长文本生成
Encoder-onlyBERT后继、DeBERTa-v3、E5系列双向上下文、[MASK]预训练嵌入、检索、分类、NER
Encoder-DecoderT5-v2、UL2、Flan-T5、mT5seq2seq、span corruption翻译、摘要、问答、结构化生成

Vision Transformer 现状(2026)

  • ViT、Swin Transformer V3、DeiT-V4 等在ImageNet上Top-1已超92%
  • 与CNN混合(如ConvNeXt V2 + ViT)或纯ViT主导检测/分割(DETR系列、Mask2Former)
  • 多模态(CLIP、SigLIP、LLaVA、Qwen-VL)几乎全部基于ViT backbone

6. 后Transformer时代:2025–2026年崛起的高效替代#

尽管Transformer稳固,二次方复杂度(O(n²))在超长上下文(>100k token)下仍瓶颈。2024–2026年爆发式涌现高效架构:

架构复杂度关键优势2026年代表模型/进展取代场景潜力
MambaO(n)选择性状态空间、硬件友好Mamba-2、Jamba(混合MoE)、Mamba-3长序列推理、边缘部署
RWKVO(n)时空并行、RNN-like线性推理RWKV-7、Eagle系列低功耗设备、实时生成
xLSTMO(n)指数门控、矩阵记忆、LSTM复兴xLSTM-7B、xLSTM-large中长序列、训练效率
混合混合Transformer + SSM/MoEJamba、Zamba、Mambaformer平衡性能与效率

2026年工业共识

  • < 32k–128k 上下文:Decoder-only Transformer + FlashAttention-3 / RingAttention 仍最稳健
  • > 1M 上下文 / 高效推理:越来越多模型转向Mamba-2混合、xLSTM、RWKV变体
  • 完全取代:短期内(2026–2027)不太可能,Transformer仍是“最通用、最成熟”的架构

总结与前瞻#

Transformer 的“注意力即一切”思想统一了语言、视觉、多模态、甚至蛋白质/音频等领域。它让AI从“逐帧记忆”走向“全局感知”,开启了Foundation Models时代。

2026年实用建议

  1. 新项目起步 → Decoder-only Transformer(Llama 3.1/4、Qwen 2.5、Grok等)
  2. 追求极致推理速度/长上下文 → 尝试 Mamba-2混合xLSTM
  3. 视觉任务 → ViT家族 + Swin/DeiT变体
  4. 研究方向 → 混合架构、状态空间模型、可扩展位置编码、注意力高效近似

Transformer不是终点,而是通往更高效、更通用AI架构的起点。

Transformer:注意力革命十年回顾与2026年生态全景
https://sw.rscclub.website/posts/rgznzztransformersf/
作者
杨月昌
发布于
2021-07-12
许可协议
CC BY-NC-SA 4.0