Overview

训练管线是大语言模型从原始数据到可部署模型的完整工程流程。核心步骤包括:数据分词(使用 tiktoken 等 BPE 分词器)、批次构建(构造输入-目标对)、前向传播(计算 logits)、损失计算(交叉熵)、反向传播(计算梯度)和参数更新(使用 AdamW 优化器)。每个环节的工程实现对训练效率和模型质量都有直接影响。

Key Ideas

  • 数据分词:使用 BPE 分词器(如 tiktoken)将原始文本转换为 token ID 序列,是数据预处理的第一步
  • 批次构建:将 token 序列切分为固定长度的输入-目标对,目标(target)是输入右移一位的结果
  • 前向传播:输入经过 Transformer 的多层注意力 + FFN 计算,输出每个位置的词表概率分布(logits)
  • 损失计算:使用交叉熵损失衡量模型预测的概率分布与真实 token 之间的差距
  • 反向传播:通过链式法则计算损失对各层参数的梯度,是参数更新的基础
  • AdamW 优化器:在 Adam 基础上解耦权重衰减,是训练 Transformer 的标准优化器选择
  • Transformer — Transformer 是训练管线中的模型核心
  • ScalingLaw — 训练管线的规模需要遵循 Scaling Law 的指导
  • FineTuning — 微调是在预训练基础上的特殊训练管线
  • FLOPs — FLOPs 衡量训练管线的计算需求