Transformer

Overview

Transformer 是一种基于自注意力机制的序列处理架构，由 Vaswani 等人在 2017 年提出。它摒弃了传统的循环结构，完全依靠注意力机制来建模序列中的依赖关系，实现了高度并行化。Transformer 采用编码器-解码器结构，包含多头自注意力、前馈网络、残差连接和层归一化等核心组件，是 GPT、BERT、LLaMA 等现代大语言模型的基础架构。

Key Ideas

编码器-解码器结构：编码器处理输入序列提取特征，解码器自回归生成输出序列；GPT 仅使用解码器，BERT 仅使用编码器
多头自注意力机制：将 Q、K、V 拆分为多个头并行计算注意力，捕获不同子空间的特征表示
前馈网络（FFN）：每个位置独立应用两层全连接变换（通常带 GELU 激活），提供非线性建模能力
残差连接 + 层归一化：Residual Connection 缓解梯度消失，LayerNorm 稳定训练过程，两者组合（Pre-Norm 或 Post-Norm）影响训练稳定性
位置编码：由于自注意力本身不具备位置感知能力，需要通过位置编码注入序列顺序信息

LinearTransformation — Transformer 中的 QKV 投影和 FFN 本质上是线性变换
MultiHeadAttention — 多头注意力是 Transformer 的核心创新
PositionalEncoding — 位置编码为 Transformer 注入序列顺序信息
TrainingPipeline — Transformer 的训练涉及完整的工程管线
ScalingLaw — Transformer 架构的性能遵循 Scaling Law 的规律

JRY's digital garden

Explorer

Transformer

Overview

Key Ideas

Graph View

Table of Contents

JRY's digital garden

Explorer

Transformer

Overview

Key Ideas

Related Concepts

Graph View

Table of Contents