TrainingPipeline

Overview

训练管线是大语言模型从原始数据到可部署模型的完整工程流程。核心步骤包括：数据分词（使用 tiktoken 等 BPE 分词器）、批次构建（构造输入-目标对）、前向传播（计算 logits）、损失计算（交叉熵）、反向传播（计算梯度）和参数更新（使用 AdamW 优化器）。每个环节的工程实现对训练效率和模型质量都有直接影响。

Key Ideas

数据分词：使用 BPE 分词器（如 tiktoken）将原始文本转换为 token ID 序列，是数据预处理的第一步
批次构建：将 token 序列切分为固定长度的输入-目标对，目标（target）是输入右移一位的结果
前向传播：输入经过 Transformer 的多层注意力 + FFN 计算，输出每个位置的词表概率分布（logits）
损失计算：使用交叉熵损失衡量模型预测的概率分布与真实 token 之间的差距
反向传播：通过链式法则计算损失对各层参数的梯度，是参数更新的基础
AdamW 优化器：在 Adam 基础上解耦权重衰减，是训练 Transformer 的标准优化器选择

Transformer — Transformer 是训练管线中的模型核心
ScalingLaw — 训练管线的规模需要遵循 Scaling Law 的指导
FineTuning — 微调是在预训练基础上的特殊训练管线
FLOPs — FLOPs 衡量训练管线的计算需求

JRY's digital garden

Explorer

TrainingPipeline

Overview

Key Ideas

Graph View

Table of Contents

Backlinks

JRY's digital garden

Explorer

TrainingPipeline

Overview

Key Ideas

Related Concepts

Graph View

Table of Contents

Backlinks