Transformer 学习笔记(八):前沿应用
2025-12-20 · Qi Lu · Views:
本文是 Transformer 系列的最后一篇,探讨大语言模型的 前沿应用:多模态大模型和推理大模型。这两个方向代表了当前 AI 研究的最前沿,正在深刻改变我们对智能的理解。
1. 多模态大模型
随着大语言模型(LLM)在文本理解和生成上取得突破性进展,研究者开始探索如何将视觉、音频等多模态信息与语言能力相结合。多模态大模型(Multimodal Large Language Models, MLLMs)已成为人工智能领域最活跃的研究方向之一。
1.1 从单模态到多模态
传统的大语言模型只能处理文本输入和输出。为了让模型具备”看”和”听”的能力,研究者提出了多种将视觉信息融入语言模型的方法。根据模态融合的深度和方式,多模态大模型可分为以下几类:
- 级联式(Cascaded):多个独立模型串联,如先用视觉模型提取描述,再输入语言模型
- 适配器式(Adapter-based):在预训练 LLM 基础上添加视觉适配器,如 LLaVA、BLIP-2
- 原生式(Native):从头开始在多模态数据上联合训练,如 GPT-4o、Gemini
1.2 核心挑战
构建多模态大模型面临几个关键挑战:
模态对齐(Modality Alignment):图像和文本存在于不同的表示空间,需要建立有效的跨模态映射。图像是连续的像素值,而文本是离散的 token 序列,如何让两者在同一语义空间中对齐是核心问题。
信息压缩:一张 224×224 的图像包含 50176 个像素,而典型的视觉编码器会产生 196-576 个视觉 token。如何在保留关键信息的同时压缩视觉表示,避免对 LLM 造成过大的序列长度负担?
理解与生成的统一:视觉理解(如 VQA)需要高层语义抽象,而图像生成需要细粒度的像素级信息。如何在单一模型中同时支持这两种看似矛盾的需求?
1.3 视觉编码器
视觉编码器是多模态大模型的”眼睛”,负责将图像转换为语言模型可理解的表示。
Vision Transformer (ViT)
Vision Transformer 将 Transformer 架构应用于图像处理。其核心思想是将图像切分为固定大小的 patch,然后像处理文本 token 一样处理这些 patch:
\[\mathbf{z}_0 = [\mathbf{x}_\text{class}; \mathbf{E}\mathbf{x}_1; \mathbf{E}\mathbf{x}_2; ...; \mathbf{E}\mathbf{x}_N] + \mathbf{E}_\text{pos}\]其中 $\mathbf{x}_{i} \in \mathbb{R}^{P^2 \cdot C}$ 是第 $i$ 个图像 patch 的展平向量,$\mathbf{E}$ 是 patch embedding 矩阵,$\mathbf{E}_{\text{pos}}$ 是位置编码。
CLIP 与对比学习
CLIP(Contrastive Language-Image Pre-training)通过对比学习在 4 亿图像-文本对上训练视觉编码器,使其输出的图像表示与对应文本描述在语义空间中对齐:
\[\mathcal{L}_\text{CLIP} = -\frac{1}{N}\sum_{i=1}^{N}\left[\log\frac{\exp(\text{sim}(\mathbf{v}_i, \mathbf{t}_i)/\tau)}{\sum_{j=1}^{N}\exp(\text{sim}(\mathbf{v}_i, \mathbf{t}_j)/\tau)}\right]\]CLIP 的视觉编码器(通常是 ViT-L/14)因其强大的跨模态对齐能力,成为早期多模态大模型的标准选择。
SigLIP 与改进
SigLIP 对 CLIP 的训练目标进行了改进,使用 sigmoid 损失替代 softmax:
\[\mathcal{L}_\text{SigLIP} = -\frac{1}{N}\sum_{i=1}^{N}\sum_{j=1}^{N}\log\sigma(y_{ij} \cdot \text{sim}(\mathbf{v}_i, \mathbf{t}_j) \cdot \tau)\]其中 $y_{ij} = 1$ 当 $i=j$,否则 $y_{ij} = -1$。这种设计允许更大的 batch size 训练,且不需要全局负样本同步,使训练更加高效。SigLIP 在 InternVL、Qwen2-VL 等新一代模型中广泛使用。
1.4 模态融合机制
将视觉特征注入语言模型的方式决定了多模态模型的架构设计。目前主流的融合机制包括:
线性/MLP 投影
最简单的方式是使用线性层或 MLP 将视觉特征映射到语言模型的 embedding 空间:
\[\mathbf{H}_v = \mathbf{W}_\text{proj} \cdot \mathbf{Z}_\text{vision} + \mathbf{b}\]LLaVA 最初采用这种方法,通过一个简单的线性投影矩阵连接 CLIP ViT-L/14 和 Vicuna:
- 保持视觉编码器和 LLM 的参数冻结
- 仅训练投影矩阵(约 2M 参数)
- 两阶段训练:预训练对齐 + 指令微调
LLaVA-1.5 将线性投影升级为两层 MLP,显著提升了多模态能力:
\[\mathbf{H}_v = \mathbf{W}_2 \cdot \text{GELU}(\mathbf{W}_1 \cdot \mathbf{Z}_\text{vision})\]Q-Former(Querying Transformer)
BLIP-2 提出了 Q-Former 架构,使用可学习的 query token 通过交叉注意力从视觉特征中提取信息:
\[\mathbf{Q}_\text{out} = \text{CrossAttn}(\mathbf{Q}_\text{learnable}, \mathbf{K}_\text{vision}, \mathbf{V}_\text{vision})\]Q-Former 的核心设计:
- 32 个可学习的 query embeddings(维度 768)
- 基于 BERT 初始化的 Transformer 块
- 交叉注意力层与自注意力层交替堆叠
- 输出固定数量的视觉 token(32 个),无论输入图像分辨率
两阶段预训练:
- 视觉-语言表示学习:使用 ITC、ITM、ITG 三种损失训练 Q-Former 与冻结的视觉编码器对齐
- 视觉-语言生成学习:Q-Former 输出接入冻结的 LLM,训练生成能力
BLIP-2 在 VQAv2 零样本任务上超越 Flamingo-80B 达 8.7%,而可训练参数仅为后者的 1/54。
交叉注意力适配器
Flamingo 和 LLaMA 3.2 Vision 采用在 LLM 内部插入交叉注意力层的方式:
\[\mathbf{h}_l' = \mathbf{h}_l + \text{CrossAttn}(\mathbf{h}_l, \mathbf{K}_\text{vision}, \mathbf{V}_\text{vision})\]LLaMA 3.2 Vision 基于 LLaMA 3.1 构建:
- 在冻结的 LLaMA 3.1 文本模型上添加视觉适配器
- 适配器包含多层交叉注意力,将图像编码器表示注入 LLM
- 训练过程中更新视觉编码器和适配器,但冻结 LLM 参数
- 保持文本能力不变,实现 LLaMA 3.1 的”即插即用”替换
融合机制对比
| 方法 | 代表模型 | 新增参数 | 视觉 token 数 | 特点 |
|---|---|---|---|---|
| 线性投影 | LLaVA | ~2M | 576 | 简单高效 |
| MLP 投影 | LLaVA-1.5 | ~20M | 576 | 表达能力更强 |
| Q-Former | BLIP-2 | ~107M | 32 | 压缩视觉信息 |
| Cross-Attention | LLaMA 3.2 | ~1B | 可变 | 深度融合 |
1.5 代表性多模态模型
LLaVA 系列
LLaVA(Large Language and Vision Assistant)是最具影响力的开源多模态大模型之一。
LLaVA-1.0:
- 视觉编码器:CLIP ViT-L/14(冻结)
- 语言模型:Vicuna-7B/13B(冻结)
- 连接方式:线性投影层
- 训练数据:595K 图像-文本对(预训练)+ 158K 视觉指令数据(微调)
LLaVA-1.5 的改进:
- MLP 替代线性投影
- 输入分辨率从 224 提升到 336
- 增加学术 VQA 数据
- 更大的语言模型(Vicuna-13B)
LLaVA-NeXT 进一步支持动态分辨率,将图像切分为多个子图像分别编码。
Qwen-VL 系列
Qwen-VL 使用更大的视觉编码器和更高分辨率:
- 视觉编码器:OpenCLIP ViT-bigG(448×448)
- 语言模型:Qwen-7B
- 连接方式:单层交叉注意力
Qwen2-VL 的创新:
- 动态分辨率:移除 ViT 的绝对位置编码,引入 2D-RoPE,支持任意分辨率输入
- M-RoPE:Multimodal Rotary Position Embedding,将旋转位置编码分解为时间和空间(高度、宽度)三部分
- Token 压缩:MLP 层将相邻 2×2 token 压缩为 1 个,224×224 图像仅产生 66 个视觉 token
InternVL 系列
InternVL 的独特设计在于视觉编码器的大规模化:
- 视觉编码器扩展到 60 亿参数(InternViT-6B)
- 引入 QLLaMA 作为”胶水层”(8B 参数)连接视觉和语言
- 三阶段训练:对比学习 → 生成学习 → 指令微调
InternVL 2.5 是首个在 MMMU 基准上突破 70% 的开源模型,达到 GPT-4o 水平。
1.6 原生多模态模型
“原生多模态”(Native Multimodal)指的是模型从设计之初就具备多模态处理能力,而非在单模态模型基础上”嫁接”其他模态。
非原生多模态(如 ChatGPT with GPT-4V):
- 文本生成:GPT-4
- 图像理解:GPT-4V(独立的视觉模块)
- 语音识别:Whisper
- 图像生成:DALL-E 3
- 各模块独立,通过 API 或文本中转连接
原生多模态(如 GPT-4o、Gemini):
- 单一神经网络端到端处理所有模态
- 在多模态数据上从头联合训练
- 模态间共享表示空间,实现深度融合
- 无需模态间的文本中转,减少信息损失
GPT-4o
GPT-4o(”o”代表”omni”,全能)于 2024 年 5 月发布,是 OpenAI 首个原生多模态旗舰模型。
核心特点:
- 单一模型端到端处理文本、音频、视觉输入
- 可直接生成文本、音频、图像输出
- 实时语音对话延迟降至 232ms(接近人类反应速度)
- 音频输入保留语调、情感等非语义信息
与 GPT-4V 的区别:
- GPT-4V:上传图像 → 视觉模型识别 → 转换为文本描述 → GPT-4 处理 → 生成回复
- GPT-4o:上传图像 → 直接理解并生成回复(无中间转换)
Google Gemini
Gemini 是 Google 的原生多模态模型系列。
技术报告声明:
“Gemini models are natively multimodal, as they are trained jointly across text, image, audio, and video.”
架构特点:
- 早期融合(Early Fusion)架构
- 从预训练阶段就在多模态数据上联合训练
- 支持 32K(Gemini 1.0)到 1M(Gemini 1.5/2.5)token 上下文
模型系列:
- Gemini Ultra:最大规模,MMLU 首次超越人类专家水平
- Gemini Pro:均衡性能与效率
- Gemini Nano:端侧部署优化
- Gemini 2.5 Pro:2025 年发布,加入”思考模型”能力
Meta Chameleon
Chameleon 是 Meta 开源的原生多模态模型,采用彻底的早期融合架构。
核心设计:
- 将所有模态(图像、文本、代码)表示为离散 token
- 统一的词表包含文本、代码和图像 token
- 使用标准 Transformer 架构处理混合模态序列
- 端到端从头训练,无需单独的图像编码器/解码器
图像离散化:使用改进的 VQ-VAE 将图像编码为离散 token:
- 图像编码为 1024 个离散 token(32×32 latent grid)
- Codebook 大小 8192
- 与文本 token 共享统一的 embedding 空间
训练规模:
- 7B 和 34B 参数版本
- 约 4.4 万亿 token 训练数据(文本、图像-文本对、交错序列)
- 超过 500 万 A100 GPU 小时
1.7 统一理解与生成
传统多模态模型要么专注于理解(如 VQA),要么专注于生成(如文生图)。近期研究开始探索在单一模型中统一这两种能力。
挑战与矛盾
理解和生成对视觉表示有不同要求:
- 理解:需要高层语义抽象,关注”是什么”
- 生成:需要细粒度细节,关注”怎么画”
使用同一个视觉编码器同时服务两种任务会产生冲突——语义编码器(如 CLIP)擅长理解但生成的图像缺乏细节;像素编码器(如 VQ-GAN)能重建细节但语义理解能力弱。
Show-o
Show-o 提出用单一 Transformer 统一理解和生成:
核心设计:
- Omni-Attention:对文本 token 使用因果注意力,对图像 token 使用全注意力
- 混合建模:文本使用自回归生成,图像使用离散扩散模型
- 统一词表:文本 token 和图像 token(VQ-GAN 编码)共享词表
任务能力:
- 图像描述(Image Captioning)
- 视觉问答(VQA)
- 文本生成图像(Text-to-Image)
- 图像编辑(Inpainting/Outpainting)
- 混合模态生成
Show-o 在 VQAv2 上超越 NExT-GPT 和 Chameleon 等更大模型,同时在图像生成上达到 FID 9.24(MSCOCO 30K)。
Janus
DeepSeek 的 Janus 采用”解耦编码、统一处理”的策略:
核心洞察:理解和生成需要不同的视觉编码,但可以共享语言模型处理。
双编码器设计:
- 理解编码器:SigLIP,提取高层语义特征
- 生成编码器:VQ tokenizer,产生离散视觉表示
- 共享 Transformer:统一处理两种编码的 token 序列
Janus-Pro(2025 年 1 月)进一步提升:
- 基于 DeepSeek-LLM-7B
- MMBench 达到 79.2(超越 LLaVA-v1.5)
- 图像生成 FID 8.53(MSCOCO 30K)
JanusFlow
JanusFlow 将生成端从离散 token 改为连续流(Rectified Flow):
- 理解端保持不变(SigLIP 编码器)
- 生成端使用 Rectified Flow 替代 VQ tokenizer
- 图像生成质量进一步提升
1.8 视觉 Tokenizer
视觉 tokenizer 是原生多模态和统一模型的关键组件,负责将连续图像转换为离散 token。
VQ-VAE 与 VQ-GAN
VQ-VAE 首次提出将连续表示映射到可学习的离散 codebook:
\[z_q = \arg\min_{e_k \in \mathcal{C}} \|z_e - e_k\|_2\]其中 $z_e$ 是编码器输出,$\mathcal{C}$ 是 codebook。
VQ-GAN 在 VQ-VAE 基础上引入对抗损失:
\[\mathcal{L}_\text{VQ-GAN} = \mathcal{L}_\text{rec} + \mathcal{L}_\text{commit} + \mathcal{L}_\text{GAN} + \mathcal{L}_\text{perceptual}\]VQ-GAN 能将 256×256 图像编码为 16×16=256 个离散 token,每个 token 来自大小为 1024-16384 的 codebook。
Tokenizer 类型对比
| 类型 | 代表 | Codebook | 特点 |
|---|---|---|---|
| 像素级 | VQ-GAN | 8K-16K | 重建质量高,语义弱 |
| 语义级 | CLIP-ViT | - | 语义强,无法重建 |
| 混合 | SEED | 8K | 兼顾语义和重建 |
| 统一 | TokenFlow | 16K | 双编码器+共享映射 |
1.9 多模态后训练
多模态大模型的后训练(Post-training)对齐人类偏好、提升指令遵循能力至关重要。
视觉指令微调
通过高质量的多模态指令数据训练模型遵循视觉相关的指令。LLaVA 首次使用 GPT-4 生成多模态指令数据,开创了多模态指令微调的范式:
- 使用 COCO 数据集的图像标注(bounding boxes、captions)
- 将视觉信息作为 prompt 输入 GPT-4
- 生成 158K 条高质量的多模态对话、复杂推理、详细描述数据
多模态 RLHF
LLaVA-RLHF 解决多模态幻觉问题:
- 使用 10K 人类偏好数据训练奖励模型
- 通过 PPO(Proximal Policy Optimization)优化策略模型
- 显著降低幻觉率,提升事实准确性
mDPO(多模态 DPO)
标准 DPO 在多模态场景中存在问题:图像作为条件在 preferred 和 rejected 样本中相同时,DPO 优化目标中的图像条件会相互抵消,导致优化过程忽略视觉信息。
mDPO 引入锚点样本(anchor)显式优化图像偏好:
\[\mathcal{L}_\text{mDPO} = \mathcal{L}_\text{DPO}(y_w, y_l | x, v) + \lambda \cdot \mathcal{L}_\text{anchor}(y_w | v, v')\]其中 $v’$ 是与 $v$ 不同的参考图像,$\mathcal{L}_\text{anchor}$ 确保模型关注图像差异。
多模态幻觉
模型生成的内容与输入图像不符,是多模态模型的主要问题:
| 幻觉类型 | 描述 | 示例 |
|---|---|---|
| 对象幻觉 | 描述图像中不存在的物体 | 说”图中有一只猫”但实际没有 |
| 属性幻觉 | 错误描述物体的属性 | 红色汽车说成蓝色 |
| 关系幻觉 | 错误描述物体间关系 | “人骑着马”但实际是站在马旁边 |
| 数量幻觉 | 错误计数物体数量 | 3 个苹果说成 5 个 |
幻觉产生原因:
- LLM 的语言先验:倾向于生成符合语言统计规律的描述
- 视觉信息利用不足:模型可能过度依赖文本上下文
- 训练数据偏差:某些对象、属性组合在训练数据中更常见
LLaVA-Critic
LLaVA-Critic 是首个开源的多模态通用评估模型,能够评估其他多模态模型的输出质量。
核心能力:
- 无参考评估(Reference-free):直接评估生成质量,无需标准答案
- 成对比较:判断两个回复哪个更好
- 多维度评分:准确性、相关性、详细程度、幻觉程度
自我改进路径:LLaVA-Critic 实现”自我奖励”(Self-Reward)的闭环:
- 生成模型产生多个候选回复
- LLaVA-Critic 评估并排序
- 使用偏好数据进行 DPO 训练
- 模型能力持续提升
2. 推理大模型
2024 年的一系列突破揭示了一个新维度:有时候,让模型更慢地回答反而能获得更好的结果。
2.1 从快思考到慢思考
传统大语言模型采用自回归生成方式,给定输入后直接预测下一个 token,这种”System 1”式的快速响应在许多任务上表现出色,但在需要复杂推理的任务上存在明显局限:
- 推理深度受限:每个 token 的生成只依赖前面的上下文,缺乏”回头检查”的能力
- 错误累积:推理链中的早期错误会传播到后续步骤
- 缺乏规划:无法预先规划解题路径,只能”边走边看”
测试时计算(Test-Time Compute)
推理大模型的核心思想是测试时计算扩展(Test-Time Compute Scaling):在推理阶段投入更多计算资源,换取更好的输出质量。
Snell 等人(2024)的关键发现:
- 测试时计算的扩展可以比扩展模型参数更有效
- 使用”计算最优”策略,测试时计算效率可提升 4 倍以上
- 在 FLOPs 匹配的评估中,小模型+测试时计算可超越 14 倍大的模型
测试时计算的主要方式:
| 方式 | 描述 | 代表方法 |
|---|---|---|
| 搜索 | 生成多个候选答案,使用验证器选择最佳 | Best-of-N, MCTS |
| 思考 | 让模型”思考”更长时间,生成详细推理过程 | CoT, o1, R1 |
| 迭代 | 多轮自我修正和优化 | Self-Refine, Reflexion |
2.2 链式思考与自一致性
链式思考(Chain-of-Thought)
链式思考(CoT)提示是推理大模型的基础技术,通过引导模型生成中间推理步骤来提升复杂任务的表现。
基本形式:
Q: Roger有5个网球,他又买了2罐网球,每罐3个。他现在有多少网球?
A: Roger一开始有5个球。2罐网球共有2*3=6个球。5+6=11。答案是11。
Zero-shot CoT:仅需添加”Let’s think step by step”即可激发模型的推理能力,无需提供示例。
自一致性(Self-Consistency)
自一致性是对链式思考的重要改进,核心思想是:
- 对同一问题生成多条推理路径(通过采样不同的 CoT)
- 通过多数投票选择最一致的答案
- 利用”殊途同归”的直觉——正确答案应该可以通过多种方式得出
效果提升:
| 数据集 | 提升幅度 |
|---|---|
| GSM8K | +17.9% |
| SVAMP | +11.0% |
| AQuA | +12.2% |
| StrategyQA | +6.4% |
自一致性改进方法:
- CISC(Confidence-Informed SC):基于置信度加权投票,减少 40% 以上的采样需求
- RASC(Reasoning-Aware SC):动态调整采样数量,简单问题少采样,困难问题多采样
- LSC(Latent SC):基于语义一致性选择,适用于长文本开放式回答
2.3 奖励模型与验证器
验证器(Verifier)用于评估模型生成的推理过程和答案质量,是搜索策略的核心组件。
结果奖励模型(ORM)
结果奖励模型(Outcome Reward Model)只对最终答案给出奖励信号:
\[r_\text{ORM}(x, y) = \begin{cases} 1 & \text{if } y \text{ is correct} \\ 0 & \text{otherwise} \end{cases}\]优点:标注成本低,只需判断最终答案对错
缺点:
- 信用分配困难:无法区分哪一步出错
- 反馈延迟:只有完成整个推理后才能获得奖励
过程奖励模型(PRM)
过程奖励模型(Process Reward Model)对推理的每一步给出奖励信号:
\[r_\text{PRM}(x, y_{1:t}) = \text{score}(y_t | x, y_{1:t-1})\]其中 $y_t$ 是第 $t$ 步推理,score 通常为 ${-1, 0, +1}$ 表示 ${$错误, 中性, 正确$}$。
OpenAI 的实验结果:使用 pre-RLHF GPT-4 作为基础模型,PRM 在 MATH 测试集上达到 78.2% 准确率,显著优于 ORM。
PRM vs ORM 对比:
| 特性 | ORM | PRM |
|---|---|---|
| 反馈粒度 | 整体结果 | 每步过程 |
| 标注成本 | 低 | 高 |
| 信用分配 | 困难 | 精确 |
| 奖励黑客风险 | 低 | 较高 |
| 搜索效率 | 较低 | 更高 |
隐式 PRM:最近研究发现,可以通过训练 ORM 然后将其作为 PRM 使用,获得”免费”的过程奖励,无需昂贵的步骤级标注。
过程优势验证器(PAV)
PAV(Process Advantage Verifier)结合了过程监督和优势估计:
- 相比 ORM,搜索准确率提升 8% 以上
- 计算效率提升 1.5-5 倍
- 在线 RL 中样本效率提升 5-6 倍
2.4 搜索与规划
Best-of-N 采样
最简单的搜索策略是生成 N 个候选答案,使用验证器选择最佳:
\[y^* = \arg\max_{y \in \{y_1, ..., y_N\}} r(x, y)\]OpenAI o1 在 AIME 2024 上的表现:
- 单次采样(pass@1):74%
- 64 次采样+共识(consensus@64):83%
蒙特卡洛树搜索(MCTS)
MCTS 将推理过程建模为树搜索问题,每个节点是一个推理状态,边是推理步骤。
基本流程:
- 选择(Selection):使用 UCB 公式选择有潜力的节点
- 扩展(Expansion):生成新的推理步骤
- 模拟(Simulation):完成推理并获得结果
- 回传(Backpropagation):更新路径上所有节点的价值
UCB 公式:
\[\text{UCB}(s, a) = Q(s, a) + c \sqrt{\frac{\ln N(s)}{N(s, a)}}\]其中 $Q(s, a)$ 是动作价值估计,$N(s)$ 是节点访问次数,$c$ 是探索系数。
MCTSr(MCT Self-Refine):结合 LLM 自我改进与 MCTS,在奥林匹克级数学问题上取得优异表现。
SC-MCTS*:使用对比解码设计可解释的奖励模型,结合推测解码加速,平均每节点速度提升 51.9%。在 Blocksworld 数据集上超越 o1-mini 17.4%。
2.5 OpenAI o1
OpenAI o1(2024 年 9 月发布)是首个大规模商用的推理大模型,其核心创新在于将链式思考内化为模型能力。
核心设计
关键特点:
- 推理 token(Reasoning Tokens):模型在回答前生成内部推理过程
- 隐藏思考:推理 token 对用户不可见(但会计费)
- 强化学习训练:通过大规模 RL 学习”如何思考”
OpenAI 官方描述:
“Similar to how a human may think for a long time before responding to a difficult question, o1 uses a chain of thought when attempting to solve a problem. Through reinforcement learning, o1 learns to hone its chain of thought and refine the strategies it uses.”
性能表现
| Benchmark | GPT-4o | o1-preview | o1 |
|---|---|---|---|
| AIME 2024 | 12% | 44% | 74% |
| Codeforces Rating | 808 | 1673 | 1891 |
| MATH-500 | 60.3% | 85.5% | 94.8% |
| GPQA Diamond | 50.6% | 73.3% | 78.0% |
扩展规律
o1 展示了两个维度的扩展规律:
- 训练时计算:更多 RL 训练带来更强的推理能力
- 测试时计算:更长的思考时间带来更好的答案质量
这打开了一条新的扩展路径:不仅可以通过增加参数和训练数据来提升性能,还可以通过增加推理时的计算来提升。
2.6 DeepSeek-R1
DeepSeek-R1(2025 年 1 月)是首个证明 纯强化学习可以激发推理能力 的开源模型。
纯 RL 训练的突破
DeepSeek-R1-Zero 的关键发现:
- 无需 SFT,仅通过 RL 即可获得强大推理能力
- 涌现出自我反思、验证、动态策略调整等高级推理模式
- AIME 2024:从 15.6% 提升到 71.0%(pass@1),多数投票达 86.7%
GRPO 算法
DeepSeek 使用 Group Relative Policy Optimization(GRPO)进行强化学习训练:
核心思想:
- 省去传统 RLHF 中与策略模型同等规模的 Critic 模型
- 使用组内相对分数作为基线估计
- 大幅降低训练成本
GRPO 优化目标:
\[\mathcal{L}_\text{GRPO} = -\mathbb{E}_{x, \{y_i\}}\left[\sum_i \frac{r(x, y_i) - \bar{r}}{\sigma_r} \log \pi_\theta(y_i|x)\right]\]其中 $\bar{r}$ 是组内平均奖励,$\sigma_r$ 是组内奖励标准差。
完整训练流程
DeepSeek-R1 的训练包含四个阶段:
- 冷启动数据:少量高质量推理数据,解决 R1-Zero 的可读性问题
- 推理 RL:大规模 RL 训练,发现更好的推理模式
- 拒绝采样 SFT:收集 RL 模型的优质输出进行 SFT
- 偏好 RL:与人类偏好对齐
涌现能力
R1-Zero 在训练过程中涌现出多种高级推理行为:
| 涌现行为 | 描述 | 示例表达 |
|---|---|---|
| 自我反思 | 重新审视推理过程 | “Wait, let me reconsider…” |
| 验证 | 检查中间步骤正确性 | “Let me verify this step…” |
| 回溯 | 发现错误后退回重试 | “That’s wrong, going back…” |
| 策略切换 | 一种方法不行时尝试另一种 | “Let me try a different approach…” |
2.7 知识蒸馏
DeepSeek 开创性地证明了推理能力可以通过蒸馏迁移到小模型。
蒸馏方法
- 使用 DeepSeek-R1 生成 800K 推理样本
- 在小模型上进行 SFT(无需额外 RL)
- 小模型获得类似的推理能力
蒸馏模型性能
| 模型 | 基座 | AIME 2024 | MATH-500 |
|---|---|---|---|
| R1-Distill-Qwen-1.5B | Qwen2.5-1.5B | 28.9% | 83.9% |
| R1-Distill-Qwen-7B | Qwen2.5-7B | 55.5% | 92.8% |
| R1-Distill-Qwen-14B | Qwen2.5-14B | 69.7% | 93.9% |
| R1-Distill-Qwen-32B | Qwen2.5-32B | 72.6% | 94.3% |
| R1-Distill-Llama-8B | Llama3.1-8B | 50.4% | 89.1% |
| R1-Distill-Llama-70B | Llama3.3-70B | 70.0% | 94.5% |
关键发现:
- R1-Distill-Qwen-32B 超越 o1-mini
- 蒸馏效果优于同规模模型直接 RL 训练
- 蒸馏是获得推理能力的高效途径
2.8 开源推理模型
QwQ(Qwen with Questions)
QwQ 是阿里巴巴 Qwen 团队发布的开源推理模型(2024 年 11 月)。
设计理念:
“QwQ approaches every problem with genuine wonder and doubt. It knows that it knows nothing, and that’s precisely what drives its curiosity.”
技术特点:
- 32B 参数,32K 上下文长度
- 使用规则化强化学习嵌入推理能力
- 推理时生成长思考链
性能表现:
- GPQA:65.2%(研究生级科学推理)
- AIME 2024:50.0%
- MATH-500:90.6%
- LiveCodeBench:50.0%
已知局限:
- 可能混合语言或意外切换语言
- 可能陷入循环推理,产生过长输出
Marco-o1
阿里巴巴的另一个推理模型 Marco-o1 使用 MCTS 算法生成合成训练数据,结合 CoT 样本进行训练。
主流推理模型对比
| 模型 | 参数 | 开源 | 训练方法 | AIME | MATH | 发布 |
|---|---|---|---|---|---|---|
| GPT-4o | - | 否 | SFT | 12% | 60.3% | 2024.05 |
| o1-preview | - | 否 | RL | 44% | 85.5% | 2024.09 |
| o1 | - | 否 | RL | 74% | 94.8% | 2024.12 |
| QwQ-32B | 32B | 是 | RL | 50% | 90.6% | 2024.11 |
| DeepSeek-R1 | 671B | 是 | RL | 79.8% | 97.3% | 2025.01 |
| R1-Distill-32B | 32B | 是 | 蒸馏 | 72.6% | 94.3% | 2025.01 |
训练范式对比
| 范式 | 代表模型 | 特点 |
|---|---|---|
| 大规模 RL + 隐藏推理 | o1 | 闭源,推理过程不可见 |
| GRPO + 多阶段训练 | DeepSeek-R1 | 完全开源,四阶段训练 |
| 规则化 RL | QwQ | 开源权重,长思考链 |
| SFT 蒸馏 | R1-Distill 系列 | 高效获得推理能力 |
2.9 应用与局限
适用场景
推理大模型特别适合:
- 数学问题:竞赛数学、定理证明
- 代码生成:复杂算法、调试
- 科学推理:物理、化学问题
- 逻辑推理:规划、约束满足
当前局限
| 局限 | 描述 | 影响 |
|---|---|---|
| 延迟高 | 思考时间长 | 不适合实时交互 |
| 成本高 | 推理 token 消耗大量计算资源 | API 调用费用增加 |
| 过度思考 | 简单问题也可能产生冗长推理 | 资源浪费 |
| 循环推理 | 可能陷入无意义的思考循环 | 无法收敛 |
| 语言混杂 | 思考过程中可能混合多种语言 | 可读性降低 |
开放问题
- 最优思考长度:如何确定何时停止思考?
- 思考可解释性:隐藏的推理过程是否可信?
- 通用推理:当前主要在数学/代码领域,如何扩展到更多领域?
- 效率优化:如何在保持推理质量的同时降低计算成本?
3. 未来方向
3.1 多模态推理
将推理能力扩展到多模态是重要的研究方向:
| 方向 | 能力 | 应用场景 |
|---|---|---|
| 视觉推理 | 图像中的逻辑关系推断 | 数学几何题、图表理解 |
| 视频理解 | 时序推理、事件因果分析 | 视频问答、动作预测 |
| 具身智能 | 物理世界的规划与交互 | 机器人操作、自动驾驶 |
3.2 统一所有模态
当前多数模型主要处理图像和文本,未来将扩展到更多模态:
- 音频/语音:原生语音理解与生成(如 GPT-4o)
- 视频:长视频理解与生成
- 3D:3D 场景理解、空间推理
- 触觉/力反馈:具身 AI 的感知能力
3.3 推理与 Agent
推理大模型为 AI Agent 提供了更强的规划能力:
| 能力 | 描述 | 价值 |
|---|---|---|
| 任务分解 | 将复杂任务分解为子任务 | 降低执行难度 |
| 规划 | 预先规划执行路径 | 提高成功率 |
| 工具使用 | 决定何时调用什么工具 | 扩展能力边界 |
| 长期目标 | 追踪并朝向长期目标前进 | 复杂任务完成 |
3.4 效率提升
提升推理效率的研究方向:
- 计算最优策略:根据任务难度动态调整测试时计算
- 简单问题:快速响应
- 困难问题:深度思考
- 自动预测难度并选择策略
- 早停策略:检测到答案收敛时提前停止
- 推测解码:加速推理 token 生成
- 稀疏激活:仅激活与推理相关的参数
- 轻量化:蒸馏更小的推理模型
4. 系列总结
本系列 8 篇文章全面解析了 Transformer 架构及其在大语言模型中的应用:
| 篇章 | 主题 | 核心内容 |
|---|---|---|
| 一 | 基础理论 | 硬件背景、Transformer 计算、Scaling Law |
| 二 | 核心组件 | Tokenizer、位置编码(RoPE)、门控机制 |
| 三 | 注意力机制 | FlashAttention、MLA、稀疏/线性注意力 |
| 四 | 模型架构 | MoE 稀疏架构、负载均衡 |
| 五 | 训练技术 | 数据工程、分布式训练、Muon 优化器 |
| 六 | 评测体系 | MMLU、LiveCodeBench、Chatbot Arena |
| 七 | 部署优化 | 量化、推理引擎、投机解码 |
| 八 | 前沿应用 | 多模态、推理大模型 |
从 2017 年 Transformer 论文发表至今,这一架构已经彻底改变了人工智能领域。展望未来:
- 更大规模:万亿参数模型将成为标配
- 更长上下文:百万 token 级别的处理能力
- 更强推理:从”快思考”到”慢思考”的范式转变
- 更多模态:真正的”全能”人工智能
我们正处于人工智能发展的黄金时代。希望这个系列能帮助你深入理解这场技术革命的核心。
本系列完结。感谢阅读!
Comments