Transformer 学习笔记（八）：前沿应用

2025-12-20 · Qi Lu · Views:

Transformer 学习笔记 · 8/16

本文是 Transformer 系列的最后一篇，探讨大语言模型的 前沿应用：多模态大模型和推理大模型。这两个方向代表了当前 AI 研究的最前沿，正在深刻改变我们对智能的理解。

1. 多模态大模型

随着大语言模型（LLM）在文本理解和生成上取得突破性进展，研究者开始探索如何将视觉、音频等多模态信息与语言能力相结合。多模态大模型（Multimodal Large Language Models, MLLMs）已成为人工智能领域最活跃的研究方向之一。

1.1 从单模态到多模态

传统的大语言模型只能处理文本输入和输出。为了让模型具备”看”和”听”的能力，研究者提出了多种将视觉信息融入语言模型的方法。根据模态融合的深度和方式，多模态大模型可分为以下几类：

级联式（Cascaded）：多个独立模型串联，如先用视觉模型提取描述，再输入语言模型
适配器式（Adapter-based）：在预训练 LLM 基础上添加视觉适配器，如 LLaVA、BLIP-2
原生式（Native）：从头开始在多模态数据上联合训练，如 GPT-4o、Gemini

1.2 核心挑战

构建多模态大模型面临几个关键挑战：

模态对齐（Modality Alignment）：图像和文本存在于不同的表示空间，需要建立有效的跨模态映射。图像是连续的像素值，而文本是离散的 token 序列，如何让两者在同一语义空间中对齐是核心问题。

信息压缩：一张 224×224 的图像包含 50176 个像素，而典型的视觉编码器会产生 196-576 个视觉 token。如何在保留关键信息的同时压缩视觉表示，避免对 LLM 造成过大的序列长度负担？

理解与生成的统一：视觉理解（如 VQA）需要高层语义抽象，而图像生成需要细粒度的像素级信息。如何在单一模型中同时支持这两种看似矛盾的需求？

1.3 视觉编码器

视觉编码器是多模态大模型的”眼睛”，负责将图像转换为语言模型可理解的表示。

Vision Transformer (ViT)

Vision Transformer 将 Transformer 架构应用于图像处理。其核心思想是将图像切分为固定大小的 patch，然后像处理文本 token 一样处理这些 patch：

\[\mathbf{z}_0 = [\mathbf{x}_\text{class}; \mathbf{E}\mathbf{x}_1; \mathbf{E}\mathbf{x}_2; ...; \mathbf{E}\mathbf{x}_N] + \mathbf{E}_\text{pos}\]

其中 $\mathbf{x}_{i} \in \mathbb{R}^{P^2 \cdot C}$ 是第 $i$ 个图像 patch 的展平向量，$\mathbf{E}$ 是 patch embedding 矩阵，$\mathbf{E}_{\text{pos}}$ 是位置编码。

CLIP 与对比学习

CLIP（Contrastive Language-Image Pre-training）通过对比学习在 4 亿图像-文本对上训练视觉编码器，使其输出的图像表示与对应文本描述在语义空间中对齐：

\[\mathcal{L}_\text{CLIP} = -\frac{1}{N}\sum_{i=1}^{N}\left[\log\frac{\exp(\text{sim}(\mathbf{v}_i, \mathbf{t}_i)/\tau)}{\sum_{j=1}^{N}\exp(\text{sim}(\mathbf{v}_i, \mathbf{t}_j)/\tau)}\right]\]

CLIP 的视觉编码器（通常是 ViT-L/14）因其强大的跨模态对齐能力，成为早期多模态大模型的标准选择。

SigLIP 与改进

SigLIP 对 CLIP 的训练目标进行了改进，使用 sigmoid 损失替代 softmax：

\[\mathcal{L}_\text{SigLIP} = -\frac{1}{N}\sum_{i=1}^{N}\sum_{j=1}^{N}\log\sigma(y_{ij} \cdot \text{sim}(\mathbf{v}_i, \mathbf{t}_j) \cdot \tau)\]

其中 $y_{ij} = 1$ 当 $i=j$，否则 $y_{ij} = -1$。这种设计允许更大的 batch size 训练，且不需要全局负样本同步，使训练更加高效。SigLIP 在 InternVL、Qwen2-VL 等新一代模型中广泛使用。

1.4 模态融合机制

将视觉特征注入语言模型的方式决定了多模态模型的架构设计。目前主流的融合机制包括：

线性/MLP 投影

最简单的方式是使用线性层或 MLP 将视觉特征映射到语言模型的 embedding 空间：

\[\mathbf{H}_v = \mathbf{W}_\text{proj} \cdot \mathbf{Z}_\text{vision} + \mathbf{b}\]

LLaVA 最初采用这种方法，通过一个简单的线性投影矩阵连接 CLIP ViT-L/14 和 Vicuna：

保持视觉编码器和 LLM 的参数冻结
仅训练投影矩阵（约 2M 参数）
两阶段训练：预训练对齐 + 指令微调

LLaVA-1.5 将线性投影升级为两层 MLP，显著提升了多模态能力：

\[\mathbf{H}_v = \mathbf{W}_2 \cdot \text{GELU}(\mathbf{W}_1 \cdot \mathbf{Z}_\text{vision})\]

Q-Former（Querying Transformer）

BLIP-2 提出了 Q-Former 架构，使用可学习的 query token 通过交叉注意力从视觉特征中提取信息：

\[\mathbf{Q}_\text{out} = \text{CrossAttn}(\mathbf{Q}_\text{learnable}, \mathbf{K}_\text{vision}, \mathbf{V}_\text{vision})\]

Q-Former 的核心设计：

32 个可学习的 query embeddings（维度 768）
基于 BERT 初始化的 Transformer 块
交叉注意力层与自注意力层交替堆叠
输出固定数量的视觉 token（32 个），无论输入图像分辨率

两阶段预训练：

视觉-语言表示学习：使用 ITC、ITM、ITG 三种损失训练 Q-Former 与冻结的视觉编码器对齐
视觉-语言生成学习：Q-Former 输出接入冻结的 LLM，训练生成能力

BLIP-2 在 VQAv2 零样本任务上超越 Flamingo-80B 达 8.7%，而可训练参数仅为后者的 1/54。

交叉注意力适配器

Flamingo 和 LLaMA 3.2 Vision 采用在 LLM 内部插入交叉注意力层的方式：

\[\mathbf{h}_l' = \mathbf{h}_l + \text{CrossAttn}(\mathbf{h}_l, \mathbf{K}_\text{vision}, \mathbf{V}_\text{vision})\]

LLaMA 3.2 Vision 基于 LLaMA 3.1 构建：

在冻结的 LLaMA 3.1 文本模型上添加视觉适配器
适配器包含多层交叉注意力，将图像编码器表示注入 LLM
训练过程中更新视觉编码器和适配器，但冻结 LLM 参数
保持文本能力不变，实现 LLaMA 3.1 的”即插即用”替换

融合机制对比

方法	代表模型	新增参数	视觉 token 数	特点
线性投影	LLaVA	~2M	576	简单高效
MLP 投影	LLaVA-1.5	~20M	576	表达能力更强
Q-Former	BLIP-2	~107M	32	压缩视觉信息
Cross-Attention	LLaMA 3.2	~1B	可变	深度融合

1.5 代表性多模态模型

LLaVA 系列

LLaVA（Large Language and Vision Assistant）是最具影响力的开源多模态大模型之一。

LLaVA-1.0：

视觉编码器：CLIP ViT-L/14（冻结）
语言模型：Vicuna-7B/13B（冻结）
连接方式：线性投影层
训练数据：595K 图像-文本对（预训练）+ 158K 视觉指令数据（微调）

LLaVA-1.5 的改进：

MLP 替代线性投影
输入分辨率从 224 提升到 336
增加学术 VQA 数据
更大的语言模型（Vicuna-13B）

LLaVA-NeXT 进一步支持动态分辨率，将图像切分为多个子图像分别编码。

Qwen-VL 系列

Qwen-VL 使用更大的视觉编码器和更高分辨率：

视觉编码器：OpenCLIP ViT-bigG（448×448）
语言模型：Qwen-7B
连接方式：单层交叉注意力

Qwen2-VL 的创新：

动态分辨率：移除 ViT 的绝对位置编码，引入 2D-RoPE，支持任意分辨率输入
M-RoPE：Multimodal Rotary Position Embedding，将旋转位置编码分解为时间和空间（高度、宽度）三部分
Token 压缩：MLP 层将相邻 2×2 token 压缩为 1 个，224×224 图像仅产生 66 个视觉 token

InternVL 系列

InternVL 的独特设计在于视觉编码器的大规模化：

视觉编码器扩展到 60 亿参数（InternViT-6B）
引入 QLLaMA 作为”胶水层”（8B 参数）连接视觉和语言
三阶段训练：对比学习 → 生成学习 → 指令微调

InternVL 2.5 是首个在 MMMU 基准上突破 70% 的开源模型，达到 GPT-4o 水平。

1.6 原生多模态模型

“原生多模态”（Native Multimodal）指的是模型从设计之初就具备多模态处理能力，而非在单模态模型基础上”嫁接”其他模态。

非原生多模态（如 ChatGPT with GPT-4V）：

文本生成：GPT-4
图像理解：GPT-4V（独立的视觉模块）
语音识别：Whisper
图像生成：DALL-E 3
各模块独立，通过 API 或文本中转连接

原生多模态（如 GPT-4o、Gemini）：

单一神经网络端到端处理所有模态
在多模态数据上从头联合训练
模态间共享表示空间，实现深度融合
无需模态间的文本中转，减少信息损失

GPT-4o

GPT-4o（”o”代表”omni”，全能）于 2024 年 5 月发布，是 OpenAI 首个原生多模态旗舰模型。

核心特点：

单一模型端到端处理文本、音频、视觉输入
可直接生成文本、音频、图像输出
实时语音对话延迟降至 232ms（接近人类反应速度）
音频输入保留语调、情感等非语义信息

与 GPT-4V 的区别：

GPT-4V：上传图像 → 视觉模型识别 → 转换为文本描述 → GPT-4 处理 → 生成回复
GPT-4o：上传图像 → 直接理解并生成回复（无中间转换）

Google Gemini

Gemini 是 Google 的原生多模态模型系列。

技术报告声明：

“Gemini models are natively multimodal, as they are trained jointly across text, image, audio, and video.”

架构特点：

早期融合（Early Fusion）架构
从预训练阶段就在多模态数据上联合训练
支持 32K（Gemini 1.0）到 1M（Gemini 1.5/2.5）token 上下文

模型系列：

Gemini Ultra：最大规模，MMLU 首次超越人类专家水平
Gemini Pro：均衡性能与效率
Gemini Nano：端侧部署优化
Gemini 2.5 Pro：2025 年发布，加入”思考模型”能力

Meta Chameleon

Chameleon 是 Meta 开源的原生多模态模型，采用彻底的早期融合架构。

核心设计：

将所有模态（图像、文本、代码）表示为离散 token
统一的词表包含文本、代码和图像 token
使用标准 Transformer 架构处理混合模态序列
端到端从头训练，无需单独的图像编码器/解码器

图像离散化：使用改进的 VQ-VAE 将图像编码为离散 token：

图像编码为 1024 个离散 token（32×32 latent grid）
Codebook 大小 8192
与文本 token 共享统一的 embedding 空间

训练规模：

7B 和 34B 参数版本
约 4.4 万亿 token 训练数据（文本、图像-文本对、交错序列）
超过 500 万 A100 GPU 小时

1.7 统一理解与生成

传统多模态模型要么专注于理解（如 VQA），要么专注于生成（如文生图）。近期研究开始探索在单一模型中统一这两种能力。

挑战与矛盾

理解和生成对视觉表示有不同要求：

理解：需要高层语义抽象，关注”是什么”
生成：需要细粒度细节，关注”怎么画”

使用同一个视觉编码器同时服务两种任务会产生冲突——语义编码器（如 CLIP）擅长理解但生成的图像缺乏细节；像素编码器（如 VQ-GAN）能重建细节但语义理解能力弱。

Show-o

Show-o 提出用单一 Transformer 统一理解和生成：

核心设计：

Omni-Attention：对文本 token 使用因果注意力，对图像 token 使用全注意力
混合建模：文本使用自回归生成，图像使用离散扩散模型
统一词表：文本 token 和图像 token（VQ-GAN 编码）共享词表

任务能力：

图像描述（Image Captioning）
视觉问答（VQA）
文本生成图像（Text-to-Image）
图像编辑（Inpainting/Outpainting）
混合模态生成

Show-o 在 VQAv2 上超越 NExT-GPT 和 Chameleon 等更大模型，同时在图像生成上达到 FID 9.24（MSCOCO 30K）。

Janus

DeepSeek 的 Janus 采用”解耦编码、统一处理”的策略：

核心洞察：理解和生成需要不同的视觉编码，但可以共享语言模型处理。

双编码器设计：

理解编码器：SigLIP，提取高层语义特征
生成编码器：VQ tokenizer，产生离散视觉表示
共享 Transformer：统一处理两种编码的 token 序列

Janus-Pro（2025 年 1 月）进一步提升：

基于 DeepSeek-LLM-7B
MMBench 达到 79.2（超越 LLaVA-v1.5）
图像生成 FID 8.53（MSCOCO 30K）

JanusFlow

JanusFlow 将生成端从离散 token 改为连续流（Rectified Flow）：

理解端保持不变（SigLIP 编码器）
生成端使用 Rectified Flow 替代 VQ tokenizer
图像生成质量进一步提升

1.8 视觉 Tokenizer

视觉 tokenizer 是原生多模态和统一模型的关键组件，负责将连续图像转换为离散 token。

VQ-VAE 与 VQ-GAN

VQ-VAE 首次提出将连续表示映射到可学习的离散 codebook：

\[z_q = \arg\min_{e_k \in \mathcal{C}} \|z_e - e_k\|_2\]

其中 $z_e$ 是编码器输出，$\mathcal{C}$ 是 codebook。

VQ-GAN 在 VQ-VAE 基础上引入对抗损失：

\[\mathcal{L}_\text{VQ-GAN} = \mathcal{L}_\text{rec} + \mathcal{L}_\text{commit} + \mathcal{L}_\text{GAN} + \mathcal{L}_\text{perceptual}\]

VQ-GAN 能将 256×256 图像编码为 16×16=256 个离散 token，每个 token 来自大小为 1024-16384 的 codebook。

Tokenizer 类型对比

类型	代表	Codebook	特点
像素级	VQ-GAN	8K-16K	重建质量高，语义弱
语义级	CLIP-ViT	-	语义强，无法重建
混合	SEED	8K	兼顾语义和重建
统一	TokenFlow	16K	双编码器+共享映射

1.9 多模态后训练

多模态大模型的后训练（Post-training）对齐人类偏好、提升指令遵循能力至关重要。

视觉指令微调

通过高质量的多模态指令数据训练模型遵循视觉相关的指令。LLaVA 首次使用 GPT-4 生成多模态指令数据，开创了多模态指令微调的范式：

使用 COCO 数据集的图像标注（bounding boxes、captions）
将视觉信息作为 prompt 输入 GPT-4
生成 158K 条高质量的多模态对话、复杂推理、详细描述数据

多模态 RLHF

LLaVA-RLHF 解决多模态幻觉问题：

使用 10K 人类偏好数据训练奖励模型
通过 PPO（Proximal Policy Optimization）优化策略模型
显著降低幻觉率，提升事实准确性

mDPO（多模态 DPO）

标准 DPO 在多模态场景中存在问题：图像作为条件在 preferred 和 rejected 样本中相同时，DPO 优化目标中的图像条件会相互抵消，导致优化过程忽略视觉信息。

mDPO 引入锚点样本（anchor）显式优化图像偏好：

\[\mathcal{L}_\text{mDPO} = \mathcal{L}_\text{DPO}(y_w, y_l | x, v) + \lambda \cdot \mathcal{L}_\text{anchor}(y_w | v, v')\]

其中 $v’$ 是与 $v$ 不同的参考图像，$\mathcal{L}_\text{anchor}$ 确保模型关注图像差异。

多模态幻觉

模型生成的内容与输入图像不符，是多模态模型的主要问题：

幻觉类型	描述	示例
对象幻觉	描述图像中不存在的物体	说”图中有一只猫”但实际没有
属性幻觉	错误描述物体的属性	红色汽车说成蓝色
关系幻觉	错误描述物体间关系	“人骑着马”但实际是站在马旁边
数量幻觉	错误计数物体数量	3 个苹果说成 5 个

幻觉产生原因：

LLM 的语言先验：倾向于生成符合语言统计规律的描述
视觉信息利用不足：模型可能过度依赖文本上下文
训练数据偏差：某些对象、属性组合在训练数据中更常见

LLaVA-Critic

LLaVA-Critic 是首个开源的多模态通用评估模型，能够评估其他多模态模型的输出质量。

核心能力：

无参考评估（Reference-free）：直接评估生成质量，无需标准答案
成对比较：判断两个回复哪个更好
多维度评分：准确性、相关性、详细程度、幻觉程度

自我改进路径：LLaVA-Critic 实现”自我奖励”（Self-Reward）的闭环：

生成模型产生多个候选回复
LLaVA-Critic 评估并排序
使用偏好数据进行 DPO 训练
模型能力持续提升

2. 推理大模型

2024 年的一系列突破揭示了一个新维度：有时候，让模型更慢地回答反而能获得更好的结果。

2.1 从快思考到慢思考

传统大语言模型采用自回归生成方式，给定输入后直接预测下一个 token，这种”System 1”式的快速响应在许多任务上表现出色，但在需要复杂推理的任务上存在明显局限：

推理深度受限：每个 token 的生成只依赖前面的上下文，缺乏”回头检查”的能力
错误累积：推理链中的早期错误会传播到后续步骤
缺乏规划：无法预先规划解题路径，只能”边走边看”

测试时计算（Test-Time Compute）

推理大模型的核心思想是测试时计算扩展（Test-Time Compute Scaling）：在推理阶段投入更多计算资源，换取更好的输出质量。

Snell 等人（2024）的关键发现：

测试时计算的扩展可以比扩展模型参数更有效
使用”计算最优”策略，测试时计算效率可提升 4 倍以上
在 FLOPs 匹配的评估中，小模型+测试时计算可超越 14 倍大的模型

测试时计算的主要方式：

方式	描述	代表方法
搜索	生成多个候选答案，使用验证器选择最佳	Best-of-N, MCTS
思考	让模型”思考”更长时间，生成详细推理过程	CoT, o1, R1
迭代	多轮自我修正和优化	Self-Refine, Reflexion

2.2 链式思考与自一致性

链式思考（Chain-of-Thought）

链式思考（CoT）提示是推理大模型的基础技术，通过引导模型生成中间推理步骤来提升复杂任务的表现。

基本形式：

Q: Roger有5个网球，他又买了2罐网球，每罐3个。他现在有多少网球？
A: Roger一开始有5个球。2罐网球共有2*3=6个球。5+6=11。答案是11。

Zero-shot CoT：仅需添加”Let’s think step by step”即可激发模型的推理能力，无需提供示例。

自一致性（Self-Consistency）

自一致性是对链式思考的重要改进，核心思想是：

对同一问题生成多条推理路径（通过采样不同的 CoT）
通过多数投票选择最一致的答案
利用”殊途同归”的直觉——正确答案应该可以通过多种方式得出

效果提升：

数据集	提升幅度
GSM8K	+17.9%
SVAMP	+11.0%
AQuA	+12.2%
StrategyQA	+6.4%

自一致性改进方法：

CISC（Confidence-Informed SC）：基于置信度加权投票，减少 40% 以上的采样需求
RASC（Reasoning-Aware SC）：动态调整采样数量，简单问题少采样，困难问题多采样
LSC（Latent SC）：基于语义一致性选择，适用于长文本开放式回答

2.3 奖励模型与验证器

验证器（Verifier）用于评估模型生成的推理过程和答案质量，是搜索策略的核心组件。

结果奖励模型（ORM）

结果奖励模型（Outcome Reward Model）只对最终答案给出奖励信号：

\[r_\text{ORM}(x, y) = \begin{cases} 1 & \text{if } y \text{ is correct} \\ 0 & \text{otherwise} \end{cases}\]

优点：标注成本低，只需判断最终答案对错

缺点：

信用分配困难：无法区分哪一步出错
反馈延迟：只有完成整个推理后才能获得奖励

过程奖励模型（PRM）

过程奖励模型（Process Reward Model）对推理的每一步给出奖励信号：

\[r_\text{PRM}(x, y_{1:t}) = \text{score}(y_t | x, y_{1:t-1})\]

其中 $y_t$ 是第 $t$ 步推理，score 通常为 ${-1, 0, +1}$ 表示 ${$错误, 中性, 正确$}$。

OpenAI 的实验结果：使用 pre-RLHF GPT-4 作为基础模型，PRM 在 MATH 测试集上达到 78.2% 准确率，显著优于 ORM。

PRM vs ORM 对比：

特性	ORM	PRM
反馈粒度	整体结果	每步过程
标注成本	低	高
信用分配	困难	精确
奖励黑客风险	低	较高
搜索效率	较低	更高

隐式 PRM：最近研究发现，可以通过训练 ORM 然后将其作为 PRM 使用，获得”免费”的过程奖励，无需昂贵的步骤级标注。

过程优势验证器（PAV）

PAV（Process Advantage Verifier）结合了过程监督和优势估计：

相比 ORM，搜索准确率提升 8% 以上
计算效率提升 1.5-5 倍
在线 RL 中样本效率提升 5-6 倍

2.4 搜索与规划

Best-of-N 采样

最简单的搜索策略是生成 N 个候选答案，使用验证器选择最佳：

\[y^* = \arg\max_{y \in \{y_1, ..., y_N\}} r(x, y)\]

OpenAI o1 在 AIME 2024 上的表现：

单次采样（pass@1）：74%
64 次采样+共识（consensus@64）：83%

蒙特卡洛树搜索（MCTS）

MCTS 将推理过程建模为树搜索问题，每个节点是一个推理状态，边是推理步骤。

基本流程：

选择（Selection）：使用 UCB 公式选择有潜力的节点
扩展（Expansion）：生成新的推理步骤
模拟（Simulation）：完成推理并获得结果
回传（Backpropagation）：更新路径上所有节点的价值

UCB 公式：

\[\text{UCB}(s, a) = Q(s, a) + c \sqrt{\frac{\ln N(s)}{N(s, a)}}\]

其中 $Q(s, a)$ 是动作价值估计，$N(s)$ 是节点访问次数，$c$ 是探索系数。

MCTSr（MCT Self-Refine）：结合 LLM 自我改进与 MCTS，在奥林匹克级数学问题上取得优异表现。

SC-MCTS*：使用对比解码设计可解释的奖励模型，结合推测解码加速，平均每节点速度提升 51.9%。在 Blocksworld 数据集上超越 o1-mini 17.4%。

2.5 OpenAI o1

OpenAI o1（2024 年 9 月发布）是首个大规模商用的推理大模型，其核心创新在于将链式思考内化为模型能力。

核心设计

关键特点：

推理 token（Reasoning Tokens）：模型在回答前生成内部推理过程
隐藏思考：推理 token 对用户不可见（但会计费）
强化学习训练：通过大规模 RL 学习”如何思考”

OpenAI 官方描述：

“Similar to how a human may think for a long time before responding to a difficult question, o1 uses a chain of thought when attempting to solve a problem. Through reinforcement learning, o1 learns to hone its chain of thought and refine the strategies it uses.”

性能表现

Benchmark	GPT-4o	o1-preview	o1
AIME 2024	12%	44%	74%
Codeforces Rating	808	1673	1891
MATH-500	60.3%	85.5%	94.8%
GPQA Diamond	50.6%	73.3%	78.0%

扩展规律

o1 展示了两个维度的扩展规律：

训练时计算：更多 RL 训练带来更强的推理能力
测试时计算：更长的思考时间带来更好的答案质量

这打开了一条新的扩展路径：不仅可以通过增加参数和训练数据来提升性能，还可以通过增加推理时的计算来提升。

2.6 DeepSeek-R1

DeepSeek-R1（2025 年 1 月）是首个证明 纯强化学习可以激发推理能力 的开源模型。

纯 RL 训练的突破

DeepSeek-R1-Zero 的关键发现：

无需 SFT，仅通过 RL 即可获得强大推理能力
涌现出自我反思、验证、动态策略调整等高级推理模式
AIME 2024：从 15.6% 提升到 71.0%（pass@1），多数投票达 86.7%

GRPO 算法

DeepSeek 使用 Group Relative Policy Optimization（GRPO）进行强化学习训练：

核心思想：

省去传统 RLHF 中与策略模型同等规模的 Critic 模型
使用组内相对分数作为基线估计
大幅降低训练成本

GRPO 优化目标：

\[\mathcal{L}_\text{GRPO} = -\mathbb{E}_{x, \{y_i\}}\left[\sum_i \frac{r(x, y_i) - \bar{r}}{\sigma_r} \log \pi_\theta(y_i|x)\right]\]

其中 $\bar{r}$ 是组内平均奖励，$\sigma_r$ 是组内奖励标准差。

完整训练流程

DeepSeek-R1 的训练包含四个阶段：

冷启动数据：少量高质量推理数据，解决 R1-Zero 的可读性问题
推理 RL：大规模 RL 训练，发现更好的推理模式
拒绝采样 SFT：收集 RL 模型的优质输出进行 SFT
偏好 RL：与人类偏好对齐

涌现能力

R1-Zero 在训练过程中涌现出多种高级推理行为：

涌现行为	描述	示例表达
自我反思	重新审视推理过程	“Wait, let me reconsider…”
验证	检查中间步骤正确性	“Let me verify this step…”
回溯	发现错误后退回重试	“That’s wrong, going back…”
策略切换	一种方法不行时尝试另一种	“Let me try a different approach…”

2.7 知识蒸馏

DeepSeek 开创性地证明了推理能力可以通过蒸馏迁移到小模型。

蒸馏方法

使用 DeepSeek-R1 生成 800K 推理样本
在小模型上进行 SFT（无需额外 RL）
小模型获得类似的推理能力

蒸馏模型性能

模型	基座	AIME 2024	MATH-500
R1-Distill-Qwen-1.5B	Qwen2.5-1.5B	28.9%	83.9%
R1-Distill-Qwen-7B	Qwen2.5-7B	55.5%	92.8%
R1-Distill-Qwen-14B	Qwen2.5-14B	69.7%	93.9%
R1-Distill-Qwen-32B	Qwen2.5-32B	72.6%	94.3%
R1-Distill-Llama-8B	Llama3.1-8B	50.4%	89.1%
R1-Distill-Llama-70B	Llama3.3-70B	70.0%	94.5%

关键发现：

R1-Distill-Qwen-32B 超越 o1-mini
蒸馏效果优于同规模模型直接 RL 训练
蒸馏是获得推理能力的高效途径

2.8 开源推理模型

QwQ（Qwen with Questions）

QwQ 是阿里巴巴 Qwen 团队发布的开源推理模型（2024 年 11 月）。

设计理念：

“QwQ approaches every problem with genuine wonder and doubt. It knows that it knows nothing, and that’s precisely what drives its curiosity.”

技术特点：

32B 参数，32K 上下文长度
使用规则化强化学习嵌入推理能力
推理时生成长思考链

性能表现：

GPQA：65.2%（研究生级科学推理）
AIME 2024：50.0%
MATH-500：90.6%
LiveCodeBench：50.0%

已知局限：

可能混合语言或意外切换语言
可能陷入循环推理，产生过长输出

Marco-o1

阿里巴巴的另一个推理模型 Marco-o1 使用 MCTS 算法生成合成训练数据，结合 CoT 样本进行训练。

主流推理模型对比

模型	参数	开源	训练方法	AIME	MATH	发布
GPT-4o	-	否	SFT	12%	60.3%	2024.05
o1-preview	-	否	RL	44%	85.5%	2024.09
o1	-	否	RL	74%	94.8%	2024.12
QwQ-32B	32B	是	RL	50%	90.6%	2024.11
DeepSeek-R1	671B	是	RL	79.8%	97.3%	2025.01
R1-Distill-32B	32B	是	蒸馏	72.6%	94.3%	2025.01

训练范式对比

范式	代表模型	特点
大规模 RL + 隐藏推理	o1	闭源，推理过程不可见
GRPO + 多阶段训练	DeepSeek-R1	完全开源，四阶段训练
规则化 RL	QwQ	开源权重，长思考链
SFT 蒸馏	R1-Distill 系列	高效获得推理能力

2.9 应用与局限

适用场景

推理大模型特别适合：

数学问题：竞赛数学、定理证明
代码生成：复杂算法、调试
科学推理：物理、化学问题
逻辑推理：规划、约束满足

当前局限

局限	描述	影响
延迟高	思考时间长	不适合实时交互
成本高	推理 token 消耗大量计算资源	API 调用费用增加
过度思考	简单问题也可能产生冗长推理	资源浪费
循环推理	可能陷入无意义的思考循环	无法收敛
语言混杂	思考过程中可能混合多种语言	可读性降低

开放问题

最优思考长度：如何确定何时停止思考？
思考可解释性：隐藏的推理过程是否可信？
通用推理：当前主要在数学/代码领域，如何扩展到更多领域？
效率优化：如何在保持推理质量的同时降低计算成本？

3. 未来方向

3.1 多模态推理

将推理能力扩展到多模态是重要的研究方向：

方向	能力	应用场景
视觉推理	图像中的逻辑关系推断	数学几何题、图表理解
视频理解	时序推理、事件因果分析	视频问答、动作预测
具身智能	物理世界的规划与交互	机器人操作、自动驾驶

3.2 统一所有模态

当前多数模型主要处理图像和文本，未来将扩展到更多模态：

音频/语音：原生语音理解与生成（如 GPT-4o）
视频：长视频理解与生成
3D：3D 场景理解、空间推理
触觉/力反馈：具身 AI 的感知能力

3.3 推理与 Agent

推理大模型为 AI Agent 提供了更强的规划能力：

能力	描述	价值
任务分解	将复杂任务分解为子任务	降低执行难度
规划	预先规划执行路径	提高成功率
工具使用	决定何时调用什么工具	扩展能力边界
长期目标	追踪并朝向长期目标前进	复杂任务完成

3.4 效率提升

提升推理效率的研究方向：

计算最优策略：根据任务难度动态调整测试时计算
- 简单问题：快速响应
- 困难问题：深度思考
- 自动预测难度并选择策略
早停策略：检测到答案收敛时提前停止
推测解码：加速推理 token 生成
稀疏激活：仅激活与推理相关的参数
轻量化：蒸馏更小的推理模型

4. 系列总结

本系列 8 篇文章全面解析了 Transformer 架构及其在大语言模型中的应用：

篇章	主题	核心内容
一	基础理论	硬件背景、Transformer 计算、Scaling Law
二	核心组件	Tokenizer、位置编码（RoPE）、门控机制
三	注意力机制	FlashAttention、MLA、稀疏/线性注意力
四	模型架构	MoE 稀疏架构、负载均衡
五	训练技术	数据工程、分布式训练、Muon 优化器
六	评测体系	MMLU、LiveCodeBench、Chatbot Arena
七	部署优化	量化、推理引擎、投机解码
八	前沿应用	多模态、推理大模型

从 2017 年 Transformer 论文发表至今，这一架构已经彻底改变了人工智能领域。展望未来：

更大规模：万亿参数模型将成为标配
更长上下文：百万 token 级别的处理能力
更强推理：从”快思考”到”慢思考”的范式转变
更多模态：真正的”全能”人工智能

我们正处于人工智能发展的黄金时代。希望这个系列能帮助你深入理解这场技术革命的核心。

本系列完结。感谢阅读！

← Back to Home