ScalingLaw

Overview

Scaling Law 揭示了大语言模型性能与模型规模、数据量和计算资源之间的幂律关系。核心公式为 L(N,D) = E + A/N^alpha + B/D^beta，其中 N 为参数量，D 为数据量，损失随两者增加而幂律下降。Chinchilla Law 进一步指出最优数据量约为参数量的 20 倍，这一发现深刻影响了后续大模型的训练策略。

Key Ideas

核心公式：L(N,D) = E + A/N^alpha + B/D^beta，其中 E 为不可约损失，alpha 约 0.34，beta 约 0.28
Chinchilla Law：最优训练数据量 D 约为模型参数量 N 的 20 倍（D approx 20 x N），即小模型需要更多数据才能充分发挥
FLOPs 估算：训练总计算量 C 约等于 6 x N x D，其中 6 来自前向（2ND）加反向传播（4ND）
三大 scaling 维度：模型参数量 N（宽度 x 深度）、训练数据量 D（token 数）、训练计算量 C（FLOPs）
实践意义：给定计算预算，存在最优的模型大小和数据量的分配方案

FLOPs — 浮点运算量是衡量 Scaling Law 中计算需求的核心指标
TrainingPipeline — 训练管线的规模需要遵循 Scaling Law 的指导
Transformer — Transformer 架构的参数量 N 是 Scaling Law 的关键变量

JRY's digital garden

Explorer

ScalingLaw

Overview

Key Ideas

Graph View

Table of Contents

Backlinks

JRY's digital garden

Explorer

ScalingLaw

Overview

Key Ideas

Related Concepts

Graph View

Table of Contents

Backlinks