LoRA与QLoRA：参数高效微调

Summary

本课讲解了LoRA（Low-Rank Adaptation）和QLoRA两种参数高效微调技术。LoRA通过低秩分解将权重更新量表示为Delta(W)=B×A，冻结原始权重只训练两个小矩阵，大幅降低可训练参数量。课程详细介绍了秩r参数（通常4-32）和Alpha缩放因子的作用。QLoRA在LoRA基础上引入4-bit量化，使消费级GPU也能微调大模型。

Key Claims

LoRA将权重更新分解为低秩形式 Delta(W)=B×A，其中B∈R^{d×r}，A∈R^{r×d}，r远小于d
冻结原始预训练权重，仅训练LoRA适配器的A和B矩阵，可训练参数量通常仅占原模型的0.1%-1%
秩r是LoRA的核心超参数，r越大表达能力越强但可训练参数越多，通常在4-32之间选取
Alpha缩放因子控制LoRA更新的”学习率”，实际缩放为 alpha/r，平衡预训练知识与适配信号
QLoRA在LoRA基础上使用4-bit NormalFloat量化冻结权重，训练时动态反量化到BF16
QLoRA使单张24GB显存的消费级GPU（如RTX 4090）可以微调7B-13B参数的大模型

Key Quotes

“LoRA的哲学是：大模型已经学会了99%的知识，微调时只需要调整那1%的差异。” — 解释低秩假设的合理性

“秩r就像一个旋钮：往左拧更省参数但表达力弱，往右拧更强但更费资源。” — 比喻秩参数的权衡

“QLoRA让’穷人也能炼大模型’——一张4090就能搞定7B模型的微调。” — 强调QLoRA的民主化意义

Connections

LoRA — 本课核心主题，低秩适配参数高效微调
QLoRA — LoRA与量化的结合，进一步降低微调硬件门槛
FineTuning — LoRA和QLoRA都是参数高效微调的具体方法

JRY's digital garden

Explorer

LoRA与QLoRA：参数高效微调

Summary

Key Claims

Key Quotes

Connections

Contradictions

Graph View

Table of Contents