warmup_ratio (预热比例)

在大模型微调训练中，预热比例warmup_ratio是用于控制学习率预热阶段占整个训练过程比例的一个参数。

通俗来讲，在训练模型时，学习率决定了模型参数每次更新的幅度。如果一开始就使用较大的学习率，由于模型权重是随机初始化的，可能会导致训练不稳定，就像一个人刚开始跑步就全力冲刺，很容易摔倒或坚持不下去。所以，我们需要一个 “热身” 过程，让学习率从 0（或很小的值）逐渐增加到目标学习率，这个过程就是学习率预热。

而warmup_ratio就是用来确定这个 “热身” 阶段有多长的。例如，如果总训练步数是 1000 步，warmup_ratio设为 0.1，那么就表示前 100 步（1000×0.1）是预热阶段。在这 100 步里，学习率会逐渐增大，直到达到目标学习率，之后才按照正常的学习率进行训练。

warmup_ratio一般取值在 0.01 到 0.2 之间。较大的warmup_ratio适合较难训练的模型，能让训练前期更稳定，但可能会使训练初期进展变慢；较小的warmup_ratio则让学习率较快达到目标学习率，适用于训练相对稳定的情况。

warmup（学习率预热）的本质是 “让学习率从极小值慢慢增加到目标值”，这个过程恰好能应对初始阶段的梯度不稳定问题：

应对初始梯度的 “不可靠性”：
训练刚开始时，模型对数据的理解是 “混乱的”，梯度方向可能反复横跳。此时用小学习率，即使梯度有点 “离谱”，参数更新步长也很小，不会 “跑偏太远”。
间接降低梯度爆炸的风险：
即使初始阶段出现较大梯度（接近爆炸边缘），由于 warmup 阶段学习率很小，“学习率 × 梯度” 的结果不会太大，参数更新仍能保持稳定。等模型逐渐稳定（梯度更可靠），学习率再慢慢升到目标值，此时模型已经 “适应” 了学习节奏，不容易被大梯度带偏。
避免梯度消失时的 “停滞”：
若初始梯度较小（接近消失），太小的学习率会让参数几乎不更新（步长太小）。warmup 过程中学习率逐渐增加，能在梯度较小时 “适当加大步长”，保证模型能有效学习。

总结：它们的关联是 “协同稳定训练”

梯度消失 / 爆炸是 “梯度本身的问题”，而学习率是 “控制梯度作用的开关”。warmup_ratio 通过控制 “开关的开启速度”，让学习率在梯度最不稳定的初始阶段 “温柔发力”，既避免被大梯度带崩（防爆炸），又避免被小梯度拖慢（防消失），最终让训练更平稳。

这就像开车：刚启动时（对应模型初始阶段），即使路况复杂（梯度不稳定），只要慢慢踩油门（小学习率起步），就能避免急刹或失控；等车速稳定（模型适应后），再加到正常速度（目标学习率）

JRY's digital garden

Explorer

warmup_ratio (预热比例)

总结：它们的关联是 “协同稳定训练”

Graph View