训练管线实现

Summary

本课聚焦于Transformer模型的训练管线实现，从数据加载与预处理开始，到训练循环和模型评估的完整流程。课程使用tiktoken作为BPE分词器，AdamW作为优化器，并实现了自回归文本生成和梯度累积等关键技术。通过动手编写训练代码，学员能够理解大语言模型从原始文本到可训练数据的完整加工链路。

“训练循环本质上就是四行代码的无限循环：前向、反向、更新、清零。” — 概括训练循环的本质

“梯度累积就是’先攒着，攒够了再一起更新’——穷人版的大batch训练。” — 形象解释梯度累积

“分词器是模型理解人类语言的第一道门，一个好的分词器能让模型少走很多弯路。” — 强调分词的重要性