Train Long, Think Short:LLM 推理长度控制方法综述
2025-12-31 · Qi Lu · Views:
在训练 RLVR 的过程中,发现即使是一些简单的问题,模型的思维链动辄数千甚至上万 token,然后调研了推理长度控制方面的研究进展,大致可以分为训练期优化和推理期控制两类。
1. 问题背景
1.1 Overthinking 现象
在 RLVR(Reinforcement Learning with Verifiable Rewards)场景下,推理模型常出现这些问题:
- 冗余验证:答案已经正确,但模型继续”Wait, let me verify…”
- 反复犹豫:使用”Hmm”、”Alternatively”等词反复切换思路
- 长度膨胀:小模型需要数千 token 才能完成中等难度推理
1.2 优化目标
在不牺牲正确率的前提下,最小化推理 token 数:
\[\min_\pi \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi(\cdot\mid x)}[\text{len}(y)] \quad \text{s.t.} \quad \text{Acc}(\pi) \geq \text{Acc}(\pi_0)\]评估指标包括:
- Accuracy-Length Pareto Front:同正确率下更短,或同长度下更准
- 正确样本的长度分布:关注长尾而非仅均值
2. 训练期方法
2.1 硬截断:ThinkPrune
论文: ThinkPrune: Pruning Long Chain-of-Thought of LLMs via Reinforcement Learning 时间: 2025-04 机构: UCSB 代码: GitHub
思路:训练时设置 token 上限,超过上限的未完成推理被截断,reward 直接归零。通过多轮迭代逐步收紧上限,迫使模型学会更简洁的推理。
方法:
- 设置初始长度上限 $L_0$
- 超过上限的样本无法得到有效答案 → reward = 0
- 迭代收紧:$L_{t+1} = \alpha \cdot L_t$,其中 $\alpha < 1$
实验结果:
- DeepSeek-R1-Distill-Qwen-1.5B 在 AIME24 上长度减半,正确率仅下降 2%
- DeepScaleR-1.5B-Preview:5,914 → 3,370 tokens
- QwQ-32B:8,763 → 4,494 tokens
优点:不需要复杂的 reward 工程,目标清晰 风险:上限过紧会截断正确解
2.2 长度奖励:GRPO-LEAD
论文: GRPO-LEAD: A Difficulty-Aware Reinforcement Learning Approach for Concise Mathematical Reasoning 时间: 2025-04 代码: GitHub
LEAD = Length-dependent rewards + Explicit penalties + Advantage reweighting for Difficulty
这个方法包含三个改动:
-
Length-dependent accuracy reward:对答对样本按长度排序打分,鼓励更短的正确解
-
显式惩罚错误:对答错样本额外施加负向约束
-
Difficulty-aware advantage reweighting:根据问题的经验正确率确定难度权重,对更难的问题放大学习信号
值得注意的是,长度排序只在正确样本内进行,错误样本另用惩罚项处理。
实验结果:14B 规模模型达到 SOTA 性能,显著提升推理准确性、简洁性和效率。
2.3 分段 Shaping:LASER
论文: Learn to Reason Efficiently with Adaptive Length-based Reward Shaping 时间: 2025-05 代码: GitHub
这篇工作提出了一个统一框架,将各种高效推理方法形式化为长度相关的 reward shaping。基于此框架,作者提出 LASER(Length-bAsed StEp Reward shaping),使用阶跃函数作为奖励:
\[r_{\text{shaped}}(y) = r_{\text{task}}(y) + f(\text{len}(y))\]LASER-D(Dynamic and Difficulty-aware)扩展:
- 模型训练过程中推理行为会演化,奖励规格也需要自适应和动态调整
- 长度奖励应该是难度感知的——对简单问题更多惩罚长 CoT
实验结果:LASER-D 在 AIME2024 上提升 +6.1 分,同时减少 63% token 使用。
2.4 自适应约束:LEASH
论文: Leash: Adaptive Length Penalty and Reward Shaping for Efficient Large Reasoning Model 时间: 2025-12
LEASH 把长度控制写成约束优化问题,使用 Lagrangian Primal-Dual 方法动态调整惩罚系数:
\[\max_\pi \mathbb{E}[r_{\text{task}}] \quad \text{s.t.} \quad \mathbb{E}[\text{len}(y)] \leq L_{\text{target}}\]动态调整机制:
- 生成超过目标长度 → 惩罚增强
- 生成短于目标长度 → 惩罚放松
One-sided penalty:只惩罚”过长”,避免激励模型无限变短。
实验结果:在 Deepseek-R1-Distill-Qwen-1.5B 和 Qwen3-4B-Thinking-2507 上,跨任务平均推理长度减少 60%(包括分布内数学推理和分布外代码、指令遵循任务),同时保持竞争性性能。
2.5 课程学习:Train Long, Think Short
论文: Train Long, Think Short: Curriculum Learning for Efficient Reasoning 时间: 2025-08 代码: GitHub
采用 curriculum 方式,先让模型”学会做题”,再逐步压缩预算:
- Phase 1:慷慨的 token 预算,让模型探索有效的解题策略
- Phase 2:逐步收紧预算,鼓励模型将策略蒸馏为更简洁的推理链
- 组合训练信号:正确性(验证器反馈)+ 长度效率 + 格式遵循
实验结果:在 GSM8K、MATH500、SVAMP、College Math、GSM+ 上,课程式训练在相同最终预算下始终优于固定预算基线。
2.6 提示可控:L1 / LCPO
论文: L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning 时间: 2025-03 主页: CMU L3 Lab
LCPO(Length Controlled Policy Optimization) 把目标长度写入 prompt:
- LCPO-Exact:”Think for exactly N tokens”
- LCPO-Max:”Think for maximum N tokens”
RL 目标中加入长度偏差项,实现可控预算推理。
实验结果:
- 1.5B 的 L1 模型在相同推理长度下超越 GPT-4o
- 优于 s1(Budget Forcing)基线
- 可导出 Short Reasoning Models (SRMs):CoT 长度与非推理模型相当,但保留推理模式
2.7 难度自适应长度惩罚:Just Enough Thinking
论文: Just Enough Thinking: Efficient Reasoning with Adaptive Length Penalties Reinforcement Learning 时间: 2025-06
LRM 经常对简单问题”过度思考”——比如 DeepSeek-R1 和 Qwen-QwQ32B 回答”2+3=?”居然生成超过 10,000 tokens。
这篇工作提出 Adaptive Length Penalty (ALP),根据每个 prompt 的在线求解率调整惩罚幅度:
- 高求解率(简单)prompt → 高额外 token 成本
- 低求解率(困难)prompt → 惩罚不变
简单来说,就是让模型在简单问题上节省 token,把预算留给困难问题。
实验结果:
- DeepScaleR-1.5B 使用 ALP 后训练,平均 token 使用减少 50%,性能基本不降
- 相比固定预算和均匀惩罚基线,ALP 在最难问题上准确率更高
2.8 Long2Short:Kimi k1.5
论文: Kimi k1.5: Scaling Reinforcement Learning with LLMs 时间: 2025-01 机构: Moonshot AI 代码: GitHub
长 CoT 推理准确率高但计算开销大。Kimi k1.5 提出 Long2Short 技术,将长 CoT 策略压缩为更高效的短 CoT 表示。
三种 Long2Short 方法:
| 方法 | 描述 |
|---|---|
| Model Merging | 长 CoT 和短 CoT 模型权重平均 |
| Shortest Rejection Sampling | 从多个正确响应中选择最短的做 SFT |
| Preference-based RL | 训练模型在保持正确性的前提下偏好简洁 |
实验结果(短 CoT SOTA):
- AIME 2024: 60.8
- MATH500: 94.6
- LiveCodeBench: 47.3
- 超越 GPT-4o 和 Claude Sonnet 3.5 高达 +550%
2.9 长度协调微调:O1-Pruner
论文: O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning 时间: 2025-01 代码: GitHub
O1-like 长思考模型难以根据问题难度和推理冗余有效分配 token 预算。O1-Pruner 提出 Length-Harmonizing Fine-Tuning 来解决这个问题:
- Pre-sampling:估计模型在不同问题上的基线性能
- RL-style Fine-tuning:在准确性约束下,鼓励模型生成更短的推理过程
实验结果:
- 推理开销减少 50%
- 准确率不降反升
- 适用于各种数学推理基准
2.10 简洁性引导 RL:ConciseRL
论文: ConciseRL: Conciseness-Guided Reinforcement Learning for Efficient Reasoning Models 时间: 2025-05
推理轨迹常常在得出正确答案后继续延伸,造成计算浪费、可读性下降甚至幻觉。ConciseRL 引入无超参数的简洁性评分作为 RL 奖励信号:
- 使用 LLM-as-judge 评估简洁性
- 动态、上下文感知的反馈(不仅仅是 token 数量)
实验结果:
- TheoremQA: 准确率 +2.2%,同时使用 12.5x 更少 tokens
- 根据问题难度动态调整推理长度
- 更强的 judge 模型带来更大收益
3. 推理期方法
3.1 答案收敛:Answer Convergence
论文: Answer Convergence as a Signal for Early Stopping in Reasoning 时间: 2025-06
一个有意思的发现:在 MATH 等数学推理任务上,模型通常在 60% 推理步骤后就已收敛到最终答案,剩余内容基本是冗余。
基于这个观察,作者提出了三类推理期策略:
- Answer Consistency 早停:连续推理块产生相同答案时停止
- Think Token Adjustment:提高生成结束推理信号的概率
- Learn-to-Stop:基于内部激活训练”何时停止”分类器
实验结果:
- Learn-to-Stop 在 NQ + QwQ-32B 上减少 48% token,有时甚至提升准确率
- Answer Consistency 在 NaturalQuestions 上减少 40%+ token 并提升准确率
3.2 Step Answer 监测:ES-CoT
论文: Early Stopping Chain-of-thoughts in Large Language Models 时间: 2025-09
几个关键概念:
- Step Answer:模型在每个推理步骤的当前答案猜测
- Run:连续相同答案的步骤序列
- Run-Jump Test:当相同 step answer 的 run length 出现统计显著跳变时,终止推理
思路很直接:”stop thinking when the answer stabilizes”——无需额外模型或重训练。
实验结果:在 5 个推理数据集、3 个 LLM 上,ES-CoT 平均减少 41% 生成 token,同时保持与原始 CoT 相当的准确率。
3.3 思路切换点监测:DEER
论文: Dynamic Early Exit in Reasoning Models 时间: 2025-04 代码: GitHub
DEER 的观察是:长 CoT 中存在 “pearl reasoning”——足够但不冗余的关键位置。
具体做法:
- 监测 Action Transition Points(ATP):如 “Wait”, “Alternatively” 等思路切换点
- 在 ATP 诱导试答
- 用置信度决定是否提前结束——推理不完整时试答置信度低,推理充分时置信度高
优点:无需额外训练,可无缝集成到现有 o1-like 推理 LLM。
实验结果:在 10 个推理基准(GSM8K、MATH-500、AMC、GPQA、AIME、LiveCodeBench)、11 个前沿推理 LLM 上:
- CoT 长度平均减少 19.1% - 80.1%
- 准确率提升 0.3% - 5.0%
3.4 推理三阶段理论:Stop Spinning Wheels
论文: Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit 时间: 2025-08
这篇工作将推理过程分为三个阶段:
- Insufficient Exploration Stage:探索不足阶段
- Compensatory Reasoning Stage:补偿推理阶段——通常在此阶段产生正确答案
- Reasoning Convergence Stage:推理收敛阶段——常触发 overthinking
关键是找到 Reasoning Completion Point (RCP) —— 补偿推理阶段结束的位置,通常出现在第一个完整推理周期末尾。
检测 RCP 的方法包括:
- 逐句查询 LLM
- 监测
</think>等结束思考 token 的概率 - 挖掘更敏感一致的 RCP 模式 + 轻量级阈值策略
实验结果:在 AIME24、AIME25、GPQA-D 上减少 token 消耗,同时保持或提升推理准确率。
3.5 Budget Forcing:s1
论文: s1: Simple test-time scaling 时间: 2025-01 代码: GitHub
s1 的做法很简洁:
- 精选 1,000 条问题+推理轨迹的小数据集 s1K
- 在 Qwen2.5-32B-Instruct 上做 SFT(仅需 26 分钟,16×H100)
- Budget Forcing:通过强制终止或反复追加 “Wait” 控制推理长度
效果:
- s1-32B 在竞赛数学题上比 o1-preview 高 27%(MATH 和 AIME24)
- Budget forcing 可将 AIME24 从 50% 提升到 57%
3.6 抑制反思词:NoWait
论文: Wait, We Don’t Need to “Wait”! Removing Thinking Tokens Improves Reasoning Efficiency 时间: EMNLP 2025 arXiv: 2506.08343
Budget forcing 在很多推理模型上并不总是有效。这篇工作的观察是:显式自我反思(”Wait”, “Hmm”, “Alternatively”)可能并非必要。
做法很简单:推理期对特定”反思/迟疑” token 做 logit 抑制:
- 识别关键反思词(通过 32 次独立运行统计最频繁的单语词)
- 推理时抑制这些 token 的生成
实验结果:在 5 个 R1 风格模型系列(QwQ、Phi4、Qwen3、Kimi-VL、QvQ)上:
- CoT 长度减少 27%-51%
- 跨文本、视觉、视频推理任务保持模型效用
- 即插即用,无需训练
3.7 动态预算:ABF
论文: Reasoning at the Right Length: Adaptive Budget Forcing for Efficient and Accurate LLM Inference 时间: 2025-09
Adaptive Budget Forcing (ABF) 通过监测实时确定性信号(token 级置信度、熵、语义一致性)动态调整推理长度:
- 置信度足够 → 停止生成
- 置信度不足 → 继续推理
与传统 Budget Forcing 的区别:传统方法使用固定长度约束或预定控制 token,ABF 实时监测模型的”思考轨迹”并自适应做出停止决策。
4. 方法分类总结
训练期方法
| 类别 | 核心思想 | 代表工作 |
|---|---|---|
| Reward Shaping | 在 RL 奖励中加入长度惩罚项,鼓励模型生成更短的正确推理 | ThinkPrune, GRPO-LEAD, LASER, LEASH, Just Enough Thinking, ConciseRL |
| 课程/蒸馏 | 先让模型学会解题,再逐步压缩推理长度或从长 CoT 蒸馏到短 CoT | Train Long Think Short, Kimi k1.5, O1-Pruner |
| 提示可控 | 训练模型根据 prompt 中的预算指令控制推理长度 | L1/LCPO |
推理期方法
| 类别 | 核心思想 | 代表工作 |
|---|---|---|
| 早停检测 | 监测答案收敛、置信度或推理完成信号,提前终止生成 | Answer Convergence, ES-CoT, DEER, Stop Spinning Wheels |
| Token 干预 | 通过强制预算、抑制反思词或动态阈值控制生成长度 | s1, NoWait, ABF |
5. 开放问题
- 正确性与效率的 Trade-off:如何保证压缩不伤正确率?
- 难度感知:简单题压缩多、难题保留长思考
- 泛化性:训练期方法能否泛化到 OOD 任务?
- 推理期 vs 训练期:两类方法能否有效结合?
参考文献
训练期方法
- ThinkPrune: arXiv:2504.01296
- GRPO-LEAD: arXiv:2504.09696
- LASER: arXiv:2505.15612
- LEASH: arXiv:2512.21540
- Train Long, Think Short: arXiv:2508.08940
- L1/LCPO: arXiv:2503.04697
- Just Enough Thinking: arXiv:2506.05256
- Kimi k1.5: arXiv:2501.12599
- O1-Pruner: arXiv:2501.12570
- ConciseRL: arXiv:2505.17250
推理期方法
- Answer Convergence: arXiv:2506.02536
- ES-CoT: arXiv:2509.14004
- DEER: arXiv:2504.15895
- Stop Spinning Wheels: arXiv:2508.17627
- s1: arXiv:2501.19393
- NoWait: arXiv:2506.08343
- ABF: OpenReview
Comments