EN

LLM Notes

LLM 与强化学习学习笔记 - Transformer、RLHF、PPO、DPO 等技术深度解析

为什么 LoRA 在强化学习微调中有效?—— 信息带宽的视角

2025-12-19 · Qi Lu · Views:

引言

在大语言模型(LLM)的后训练阶段,低秩适配(Low-Rank Adaptation, LoRA)已经成为最流行的参数高效微调(PEFT)方法。一个令人惊讶的发现是:在强化学习(RL)微调场景下,即使使用非常小的 rank,LoRA 的表现也能与全参数微调(Full Fine-Tuning)相当。

这篇博客将综合两篇优秀的文章——Thinking Machines Lab 的 LoRA Without Regret 和 Yingru Li 的 Information Bandwidth in Reinforcement Learning——来探讨这一现象背后的信息理论解释。

LoRA 的基本原理

LoRA 的核心思想是用低秩矩阵来近似权重更新。具体来说,对于原始权重矩阵 $W$,LoRA 将其替换为:

\[W' = W + \gamma BA\]

其中 $B$ 和 $A$ 是两个低秩矩阵,它们的参数量远小于原始的 $W$。这使得训练所需的内存和计算资源大大减少。

LoRA Without Regret 的关键发现

Thinking Machines Lab(由 John Schulman 领导)的研究揭示了几个重要的实验结论:

1. RL 场景下的等效性能

在强化学习微调中,即使使用很小的 rank,LoRA 的表现也与全参数微调几乎一致。这与监督学习形成了鲜明对比——在大数据集的 SL 任务中,LoRA 往往会因为容量不足而性能下降。

2. 学习率的重要性

LoRA 需要比全参数微调大得多的学习率——通常是 20-100 倍。在选择了最优学习率后,不同大小的 LoRA 和全参数微调的训练曲线几乎完全重合。

3. 实践建议

信息带宽:理论解释

为什么 RL 只需要如此低的模型容量?Yingru Li 的文章从信息理论角度给出了优雅的解释。

核心洞见:每个 Episode 只学习约 1 bit 信息

Policy gradient 算法存在一个根本性的信息瓶颈:每个 episode 大约只能学习 1 bit 的信息

这个限制源于梯度的结构特性。在使用 scalar advantage(标量优势函数)的情况下:

\[g = \nabla \log \pi_\theta(a|s) \cdot A\]

所有 timestep 的奖励被聚合成一个标量 $A$,这导致信息上限为 $\leq \log_2(B)$ bits,其中 $B$ 是 batch size。

结构性瓶颈

这是一个结构性瓶颈,无法通过增加更多参数或计算资源来突破。无论你的模型有多大,每个 episode 能学到的信息量都被这个理论上限所限制。

Per-Timestep Advantages 的替代方案

使用 per-timestep advantages 可以提高信息上限到 $\leq H(r)$ bits:

\[g = \sum_{t=0}^{T-1} \nabla \log \pi_\theta(a_t|s_t) \cdot A_t\]

但在实践中,这需要更复杂的 credit assignment。

理论与实践的统一

现在我们可以理解为什么 LoRA 在 RL 中如此有效了:

  1. 信息瓶颈决定了所需容量:既然每个 episode 只能学习约 1 bit 信息,那么模型更新所需的”容量”就非常有限。

  2. LoRA 的容量足够:即使是很小 rank 的 LoRA,其可训练参数也足以容纳这些稀疏的信息更新。

  3. 额外参数是浪费:在 RL 场景下,全参数微调相比 LoRA 并没有本质优势,因为瓶颈不在模型容量,而在信息获取。

这也解释了为什么在大数据集 SL 任务中 LoRA 会落后——SL 任务没有这个 1 bit/episode 的限制,数据集越大,可学习的信息越多,此时 LoRA 的容量限制就会成为瓶颈。

实践启示

基于这些理论和实验发现,我们可以得出以下实践建议:

对于 RL 微调(如 RLHF)

对于 SL 任务

对于系统设计

总结

LoRA 在 RL 微调中的成功不是偶然的——它有着深刻的信息理论基础。Policy gradient 算法固有的 1 bit/episode 信息瓶颈意味着我们根本不需要太多的参数来捕获这些更新。这个洞见不仅解释了现有的实验现象,也为未来的算法设计指明了方向:与其增加模型容量,不如思考如何提高信息带宽。

参考资料

  1. LoRA Without Regret - Thinking Machines Lab
  2. Information Bandwidth in Reinforcement Learning - Yingru Li
  3. LoRA Primer - Tinker API
← Back to Home

Comments