为什么 LoRA 在强化学习微调中有效？—— 信息带宽的视角

2025-12-19 · Qi Lu · Views:

引言

在大语言模型（LLM）的后训练阶段，低秩适配（Low-Rank Adaptation, LoRA）已经成为最流行的参数高效微调（PEFT）方法。一个令人惊讶的发现是：在强化学习（RL）微调场景下，即使使用非常小的 rank，LoRA 的表现也能与全参数微调（Full Fine-Tuning）相当。

这篇博客将综合两篇优秀的文章——Thinking Machines Lab 的 LoRA Without Regret 和 Yingru Li 的 Information Bandwidth in Reinforcement Learning——来探讨这一现象背后的信息理论解释。

LoRA 的基本原理

LoRA 的核心思想是用低秩矩阵来近似权重更新。具体来说，对于原始权重矩阵 $W$，LoRA 将其替换为：

\[W' = W + \gamma BA\]

其中 $B$ 和 $A$ 是两个低秩矩阵，它们的参数量远小于原始的 $W$。这使得训练所需的内存和计算资源大大减少。

LoRA Without Regret 的关键发现

Thinking Machines Lab（由 John Schulman 领导）的研究揭示了几个重要的实验结论：

1. RL 场景下的等效性能

在强化学习微调中，即使使用很小的 rank，LoRA 的表现也与全参数微调几乎一致。这与监督学习形成了鲜明对比——在大数据集的 SL 任务中，LoRA 往往会因为容量不足而性能下降。

2. 学习率的重要性

LoRA 需要比全参数微调大得多的学习率——通常是 20-100 倍。在选择了最优学习率后，不同大小的 LoRA 和全参数微调的训练曲线几乎完全重合。

3. 实践建议

对于 RL 微调：可以放心使用小 rank 的 LoRA
对于小到中等规模数据集的 SL：LoRA 表现与全参数微调相当
应该对所有权重矩阵应用 LoRA，尤其是 MLP 和 MoE 层

信息带宽：理论解释

为什么 RL 只需要如此低的模型容量？Yingru Li 的文章从信息理论角度给出了优雅的解释。

核心洞见：每个 Episode 只学习约 1 bit 信息

Policy gradient 算法存在一个根本性的信息瓶颈：每个 episode 大约只能学习 1 bit 的信息。

这个限制源于梯度的结构特性。在使用 scalar advantage（标量优势函数）的情况下：

\[g = \nabla \log \pi_\theta(a|s) \cdot A\]

所有 timestep 的奖励被聚合成一个标量 $A$，这导致信息上限为 $\leq \log_2(B)$ bits，其中 $B$ 是 batch size。

结构性瓶颈

这是一个结构性瓶颈，无法通过增加更多参数或计算资源来突破。无论你的模型有多大，每个 episode 能学到的信息量都被这个理论上限所限制。

Per-Timestep Advantages 的替代方案

使用 per-timestep advantages 可以提高信息上限到 $\leq H(r)$ bits：

\[g = \sum_{t=0}^{T-1} \nabla \log \pi_\theta(a_t|s_t) \cdot A_t\]

但在实践中，这需要更复杂的 credit assignment。

理论与实践的统一

现在我们可以理解为什么 LoRA 在 RL 中如此有效了：

信息瓶颈决定了所需容量：既然每个 episode 只能学习约 1 bit 信息，那么模型更新所需的”容量”就非常有限。
LoRA 的容量足够：即使是很小 rank 的 LoRA，其可训练参数也足以容纳这些稀疏的信息更新。
额外参数是浪费：在 RL 场景下，全参数微调相比 LoRA 并没有本质优势，因为瓶颈不在模型容量，而在信息获取。

这也解释了为什么在大数据集 SL 任务中 LoRA 会落后——SL 任务没有这个 1 bit/episode 的限制，数据集越大，可学习的信息越多，此时 LoRA 的容量限制就会成为瓶颈。

实践启示

基于这些理论和实验发现，我们可以得出以下实践建议：

对于 RL 微调（如 RLHF）

大胆使用 LoRA，即使是很小的 rank 也足够
节省下来的计算资源可以用于其他方面（如更多的采样）
使用较大的学习率（20-100x）

对于 SL 任务

小数据集：LoRA 是安全选择
大数据集：考虑全参数微调或更大 rank 的 LoRA
始终对所有权重矩阵应用 LoRA

对于系统设计

LoRA 的低容量需求使得单个推理服务器可以同时保存多个 adapter
这为个性化模型服务提供了极大的灵活性

总结

LoRA 在 RL 微调中的成功不是偶然的——它有着深刻的信息理论基础。Policy gradient 算法固有的 1 bit/episode 信息瓶颈意味着我们根本不需要太多的参数来捕获这些更新。这个洞见不仅解释了现有的实验现象，也为未来的算法设计指明了方向：与其增加模型容量，不如思考如何提高信息带宽。

参考资料

Tags: RL RLHF

← Back to Home

LLM Notes

LLM 与强化学习学习笔记 - Transformer、RLHF、PPO、DPO 等技术深度解析