EN

LLM Notes

LLM 与强化学习学习笔记 - Transformer、RLHF、PPO、DPO 等技术深度解析

Transformer 学习笔记(八):前沿应用

2025-12-20 · Qi Lu · Views:

本文是 Transformer 系列的最后一篇,探讨大语言模型的 前沿应用:多模态大模型和推理大模型。这两个方向代表了当前 AI 研究的最前沿,正在深刻改变我们对智能的理解。

1. 多模态大模型

随着大语言模型(LLM)在文本理解和生成上取得突破性进展,研究者开始探索如何将视觉、音频等多模态信息与语言能力相结合。多模态大模型(Multimodal Large Language Models, MLLMs)已成为人工智能领域最活跃的研究方向之一。

1.1 从单模态到多模态

传统的大语言模型只能处理文本输入和输出。为了让模型具备”看”和”听”的能力,研究者提出了多种将视觉信息融入语言模型的方法。根据模态融合的深度和方式,多模态大模型可分为以下几类:

1.2 核心挑战

构建多模态大模型面临几个关键挑战:

模态对齐(Modality Alignment):图像和文本存在于不同的表示空间,需要建立有效的跨模态映射。图像是连续的像素值,而文本是离散的 token 序列,如何让两者在同一语义空间中对齐是核心问题。

信息压缩:一张 224×224 的图像包含 50176 个像素,而典型的视觉编码器会产生 196-576 个视觉 token。如何在保留关键信息的同时压缩视觉表示,避免对 LLM 造成过大的序列长度负担?

理解与生成的统一:视觉理解(如 VQA)需要高层语义抽象,而图像生成需要细粒度的像素级信息。如何在单一模型中同时支持这两种看似矛盾的需求?

1.3 视觉编码器

视觉编码器是多模态大模型的”眼睛”,负责将图像转换为语言模型可理解的表示。

Vision Transformer (ViT)

Vision Transformer 将 Transformer 架构应用于图像处理。其核心思想是将图像切分为固定大小的 patch,然后像处理文本 token 一样处理这些 patch:

\[\mathbf{z}_0 = [\mathbf{x}_\text{class}; \mathbf{E}\mathbf{x}_1; \mathbf{E}\mathbf{x}_2; ...; \mathbf{E}\mathbf{x}_N] + \mathbf{E}_\text{pos}\]

其中 $\mathbf{x}_{i} \in \mathbb{R}^{P^2 \cdot C}$ 是第 $i$ 个图像 patch 的展平向量,$\mathbf{E}$ 是 patch embedding 矩阵,$\mathbf{E}_{\text{pos}}$ 是位置编码。

CLIP 与对比学习

CLIP(Contrastive Language-Image Pre-training)通过对比学习在 4 亿图像-文本对上训练视觉编码器,使其输出的图像表示与对应文本描述在语义空间中对齐:

\[\mathcal{L}_\text{CLIP} = -\frac{1}{N}\sum_{i=1}^{N}\left[\log\frac{\exp(\text{sim}(\mathbf{v}_i, \mathbf{t}_i)/\tau)}{\sum_{j=1}^{N}\exp(\text{sim}(\mathbf{v}_i, \mathbf{t}_j)/\tau)}\right]\]

CLIP 的视觉编码器(通常是 ViT-L/14)因其强大的跨模态对齐能力,成为早期多模态大模型的标准选择。

SigLIP 与改进

SigLIP 对 CLIP 的训练目标进行了改进,使用 sigmoid 损失替代 softmax:

\[\mathcal{L}_\text{SigLIP} = -\frac{1}{N}\sum_{i=1}^{N}\sum_{j=1}^{N}\log\sigma(y_{ij} \cdot \text{sim}(\mathbf{v}_i, \mathbf{t}_j) \cdot \tau)\]

其中 $y_{ij} = 1$ 当 $i=j$,否则 $y_{ij} = -1$。这种设计允许更大的 batch size 训练,且不需要全局负样本同步,使训练更加高效。SigLIP 在 InternVL、Qwen2-VL 等新一代模型中广泛使用。

1.4 模态融合机制

将视觉特征注入语言模型的方式决定了多模态模型的架构设计。目前主流的融合机制包括:

线性/MLP 投影

最简单的方式是使用线性层或 MLP 将视觉特征映射到语言模型的 embedding 空间:

\[\mathbf{H}_v = \mathbf{W}_\text{proj} \cdot \mathbf{Z}_\text{vision} + \mathbf{b}\]

LLaVA 最初采用这种方法,通过一个简单的线性投影矩阵连接 CLIP ViT-L/14 和 Vicuna:

LLaVA-1.5 将线性投影升级为两层 MLP,显著提升了多模态能力:

\[\mathbf{H}_v = \mathbf{W}_2 \cdot \text{GELU}(\mathbf{W}_1 \cdot \mathbf{Z}_\text{vision})\]

Q-Former(Querying Transformer)

BLIP-2 提出了 Q-Former 架构,使用可学习的 query token 通过交叉注意力从视觉特征中提取信息:

\[\mathbf{Q}_\text{out} = \text{CrossAttn}(\mathbf{Q}_\text{learnable}, \mathbf{K}_\text{vision}, \mathbf{V}_\text{vision})\]

Q-Former 的核心设计:

两阶段预训练

  1. 视觉-语言表示学习:使用 ITC、ITM、ITG 三种损失训练 Q-Former 与冻结的视觉编码器对齐
  2. 视觉-语言生成学习:Q-Former 输出接入冻结的 LLM,训练生成能力

BLIP-2 在 VQAv2 零样本任务上超越 Flamingo-80B 达 8.7%,而可训练参数仅为后者的 1/54。

交叉注意力适配器

Flamingo 和 LLaMA 3.2 Vision 采用在 LLM 内部插入交叉注意力层的方式:

\[\mathbf{h}_l' = \mathbf{h}_l + \text{CrossAttn}(\mathbf{h}_l, \mathbf{K}_\text{vision}, \mathbf{V}_\text{vision})\]

LLaMA 3.2 Vision 基于 LLaMA 3.1 构建:

融合机制对比

方法 代表模型 新增参数 视觉 token 数 特点
线性投影 LLaVA ~2M 576 简单高效
MLP 投影 LLaVA-1.5 ~20M 576 表达能力更强
Q-Former BLIP-2 ~107M 32 压缩视觉信息
Cross-Attention LLaMA 3.2 ~1B 可变 深度融合

1.5 代表性多模态模型

LLaVA 系列

LLaVA(Large Language and Vision Assistant)是最具影响力的开源多模态大模型之一。

LLaVA-1.0

LLaVA-1.5 的改进

LLaVA-NeXT 进一步支持动态分辨率,将图像切分为多个子图像分别编码。

Qwen-VL 系列

Qwen-VL 使用更大的视觉编码器和更高分辨率:

Qwen2-VL 的创新:

InternVL 系列

InternVL 的独特设计在于视觉编码器的大规模化:

InternVL 2.5 是首个在 MMMU 基准上突破 70% 的开源模型,达到 GPT-4o 水平。

1.6 原生多模态模型

“原生多模态”(Native Multimodal)指的是模型从设计之初就具备多模态处理能力,而非在单模态模型基础上”嫁接”其他模态。

非原生多模态(如 ChatGPT with GPT-4V):

原生多模态(如 GPT-4o、Gemini):

GPT-4o

GPT-4o(”o”代表”omni”,全能)于 2024 年 5 月发布,是 OpenAI 首个原生多模态旗舰模型。

核心特点

与 GPT-4V 的区别

Google Gemini

Gemini 是 Google 的原生多模态模型系列。

技术报告声明

“Gemini models are natively multimodal, as they are trained jointly across text, image, audio, and video.”

架构特点

模型系列

Meta Chameleon

Chameleon 是 Meta 开源的原生多模态模型,采用彻底的早期融合架构。

核心设计

图像离散化:使用改进的 VQ-VAE 将图像编码为离散 token:

训练规模

1.7 统一理解与生成

传统多模态模型要么专注于理解(如 VQA),要么专注于生成(如文生图)。近期研究开始探索在单一模型中统一这两种能力。

挑战与矛盾

理解和生成对视觉表示有不同要求:

使用同一个视觉编码器同时服务两种任务会产生冲突——语义编码器(如 CLIP)擅长理解但生成的图像缺乏细节;像素编码器(如 VQ-GAN)能重建细节但语义理解能力弱。

Show-o

Show-o 提出用单一 Transformer 统一理解和生成:

核心设计

任务能力

Show-o 在 VQAv2 上超越 NExT-GPT 和 Chameleon 等更大模型,同时在图像生成上达到 FID 9.24(MSCOCO 30K)。

Janus

DeepSeek 的 Janus 采用”解耦编码、统一处理”的策略:

核心洞察:理解和生成需要不同的视觉编码,但可以共享语言模型处理。

双编码器设计

Janus-Pro(2025 年 1 月)进一步提升:

JanusFlow

JanusFlow 将生成端从离散 token 改为连续流(Rectified Flow):

1.8 视觉 Tokenizer

视觉 tokenizer 是原生多模态和统一模型的关键组件,负责将连续图像转换为离散 token。

VQ-VAE 与 VQ-GAN

VQ-VAE 首次提出将连续表示映射到可学习的离散 codebook:

\[z_q = \arg\min_{e_k \in \mathcal{C}} \|z_e - e_k\|_2\]

其中 $z_e$ 是编码器输出,$\mathcal{C}$ 是 codebook。

VQ-GAN 在 VQ-VAE 基础上引入对抗损失:

\[\mathcal{L}_\text{VQ-GAN} = \mathcal{L}_\text{rec} + \mathcal{L}_\text{commit} + \mathcal{L}_\text{GAN} + \mathcal{L}_\text{perceptual}\]

VQ-GAN 能将 256×256 图像编码为 16×16=256 个离散 token,每个 token 来自大小为 1024-16384 的 codebook。

Tokenizer 类型对比

类型 代表 Codebook 特点
像素级 VQ-GAN 8K-16K 重建质量高,语义弱
语义级 CLIP-ViT - 语义强,无法重建
混合 SEED 8K 兼顾语义和重建
统一 TokenFlow 16K 双编码器+共享映射

1.9 多模态后训练

多模态大模型的后训练(Post-training)对齐人类偏好、提升指令遵循能力至关重要。

视觉指令微调

通过高质量的多模态指令数据训练模型遵循视觉相关的指令。LLaVA 首次使用 GPT-4 生成多模态指令数据,开创了多模态指令微调的范式:

多模态 RLHF

LLaVA-RLHF 解决多模态幻觉问题:

mDPO(多模态 DPO)

标准 DPO 在多模态场景中存在问题:图像作为条件在 preferred 和 rejected 样本中相同时,DPO 优化目标中的图像条件会相互抵消,导致优化过程忽略视觉信息。

mDPO 引入锚点样本(anchor)显式优化图像偏好:

\[\mathcal{L}_\text{mDPO} = \mathcal{L}_\text{DPO}(y_w, y_l | x, v) + \lambda \cdot \mathcal{L}_\text{anchor}(y_w | v, v')\]

其中 $v’$ 是与 $v$ 不同的参考图像,$\mathcal{L}_\text{anchor}$ 确保模型关注图像差异。

多模态幻觉

模型生成的内容与输入图像不符,是多模态模型的主要问题:

幻觉类型 描述 示例
对象幻觉 描述图像中不存在的物体 说”图中有一只猫”但实际没有
属性幻觉 错误描述物体的属性 红色汽车说成蓝色
关系幻觉 错误描述物体间关系 “人骑着马”但实际是站在马旁边
数量幻觉 错误计数物体数量 3 个苹果说成 5 个

幻觉产生原因

LLaVA-Critic

LLaVA-Critic 是首个开源的多模态通用评估模型,能够评估其他多模态模型的输出质量。

核心能力

自我改进路径:LLaVA-Critic 实现”自我奖励”(Self-Reward)的闭环:

  1. 生成模型产生多个候选回复
  2. LLaVA-Critic 评估并排序
  3. 使用偏好数据进行 DPO 训练
  4. 模型能力持续提升

2. 推理大模型

2024 年的一系列突破揭示了一个新维度:有时候,让模型更慢地回答反而能获得更好的结果。

2.1 从快思考到慢思考

传统大语言模型采用自回归生成方式,给定输入后直接预测下一个 token,这种”System 1”式的快速响应在许多任务上表现出色,但在需要复杂推理的任务上存在明显局限:

测试时计算(Test-Time Compute)

推理大模型的核心思想是测试时计算扩展(Test-Time Compute Scaling):在推理阶段投入更多计算资源,换取更好的输出质量。

Snell 等人(2024)的关键发现

测试时计算的主要方式:

方式 描述 代表方法
搜索 生成多个候选答案,使用验证器选择最佳 Best-of-N, MCTS
思考 让模型”思考”更长时间,生成详细推理过程 CoT, o1, R1
迭代 多轮自我修正和优化 Self-Refine, Reflexion

2.2 链式思考与自一致性

链式思考(Chain-of-Thought)

链式思考(CoT)提示是推理大模型的基础技术,通过引导模型生成中间推理步骤来提升复杂任务的表现。

基本形式

Q: Roger有5个网球,他又买了2罐网球,每罐3个。他现在有多少网球?
A: Roger一开始有5个球。2罐网球共有2*3=6个球。5+6=11。答案是11。

Zero-shot CoT:仅需添加”Let’s think step by step”即可激发模型的推理能力,无需提供示例。

自一致性(Self-Consistency)

自一致性是对链式思考的重要改进,核心思想是:

效果提升

数据集 提升幅度
GSM8K +17.9%
SVAMP +11.0%
AQuA +12.2%
StrategyQA +6.4%

自一致性改进方法

2.3 奖励模型与验证器

验证器(Verifier)用于评估模型生成的推理过程和答案质量,是搜索策略的核心组件。

结果奖励模型(ORM)

结果奖励模型(Outcome Reward Model)只对最终答案给出奖励信号:

\[r_\text{ORM}(x, y) = \begin{cases} 1 & \text{if } y \text{ is correct} \\ 0 & \text{otherwise} \end{cases}\]

优点:标注成本低,只需判断最终答案对错

缺点

过程奖励模型(PRM)

过程奖励模型(Process Reward Model)对推理的每一步给出奖励信号:

\[r_\text{PRM}(x, y_{1:t}) = \text{score}(y_t | x, y_{1:t-1})\]

其中 $y_t$ 是第 $t$ 步推理,score 通常为 ${-1, 0, +1}$ 表示 ${$错误, 中性, 正确$}$。

OpenAI 的实验结果:使用 pre-RLHF GPT-4 作为基础模型,PRM 在 MATH 测试集上达到 78.2% 准确率,显著优于 ORM。

PRM vs ORM 对比

特性 ORM PRM
反馈粒度 整体结果 每步过程
标注成本
信用分配 困难 精确
奖励黑客风险 较高
搜索效率 较低 更高

隐式 PRM:最近研究发现,可以通过训练 ORM 然后将其作为 PRM 使用,获得”免费”的过程奖励,无需昂贵的步骤级标注。

过程优势验证器(PAV)

PAV(Process Advantage Verifier)结合了过程监督和优势估计:

2.4 搜索与规划

Best-of-N 采样

最简单的搜索策略是生成 N 个候选答案,使用验证器选择最佳:

\[y^* = \arg\max_{y \in \{y_1, ..., y_N\}} r(x, y)\]

OpenAI o1 在 AIME 2024 上的表现:

蒙特卡洛树搜索(MCTS)

MCTS 将推理过程建模为树搜索问题,每个节点是一个推理状态,边是推理步骤。

基本流程

  1. 选择(Selection):使用 UCB 公式选择有潜力的节点
  2. 扩展(Expansion):生成新的推理步骤
  3. 模拟(Simulation):完成推理并获得结果
  4. 回传(Backpropagation):更新路径上所有节点的价值

UCB 公式

\[\text{UCB}(s, a) = Q(s, a) + c \sqrt{\frac{\ln N(s)}{N(s, a)}}\]

其中 $Q(s, a)$ 是动作价值估计,$N(s)$ 是节点访问次数,$c$ 是探索系数。

MCTSr(MCT Self-Refine):结合 LLM 自我改进与 MCTS,在奥林匹克级数学问题上取得优异表现。

SC-MCTS*:使用对比解码设计可解释的奖励模型,结合推测解码加速,平均每节点速度提升 51.9%。在 Blocksworld 数据集上超越 o1-mini 17.4%。

2.5 OpenAI o1

OpenAI o1(2024 年 9 月发布)是首个大规模商用的推理大模型,其核心创新在于将链式思考内化为模型能力。

核心设计

关键特点

OpenAI 官方描述

“Similar to how a human may think for a long time before responding to a difficult question, o1 uses a chain of thought when attempting to solve a problem. Through reinforcement learning, o1 learns to hone its chain of thought and refine the strategies it uses.”

性能表现

Benchmark GPT-4o o1-preview o1
AIME 2024 12% 44% 74%
Codeforces Rating 808 1673 1891
MATH-500 60.3% 85.5% 94.8%
GPQA Diamond 50.6% 73.3% 78.0%

扩展规律

o1 展示了两个维度的扩展规律:

  1. 训练时计算:更多 RL 训练带来更强的推理能力
  2. 测试时计算:更长的思考时间带来更好的答案质量

这打开了一条新的扩展路径:不仅可以通过增加参数和训练数据来提升性能,还可以通过增加推理时的计算来提升。

2.6 DeepSeek-R1

DeepSeek-R1(2025 年 1 月)是首个证明 纯强化学习可以激发推理能力 的开源模型。

纯 RL 训练的突破

DeepSeek-R1-Zero 的关键发现

GRPO 算法

DeepSeek 使用 Group Relative Policy Optimization(GRPO)进行强化学习训练:

核心思想

GRPO 优化目标

\[\mathcal{L}_\text{GRPO} = -\mathbb{E}_{x, \{y_i\}}\left[\sum_i \frac{r(x, y_i) - \bar{r}}{\sigma_r} \log \pi_\theta(y_i|x)\right]\]

其中 $\bar{r}$ 是组内平均奖励,$\sigma_r$ 是组内奖励标准差。

完整训练流程

DeepSeek-R1 的训练包含四个阶段:

  1. 冷启动数据:少量高质量推理数据,解决 R1-Zero 的可读性问题
  2. 推理 RL:大规模 RL 训练,发现更好的推理模式
  3. 拒绝采样 SFT:收集 RL 模型的优质输出进行 SFT
  4. 偏好 RL:与人类偏好对齐

涌现能力

R1-Zero 在训练过程中涌现出多种高级推理行为:

涌现行为 描述 示例表达
自我反思 重新审视推理过程 “Wait, let me reconsider…”
验证 检查中间步骤正确性 “Let me verify this step…”
回溯 发现错误后退回重试 “That’s wrong, going back…”
策略切换 一种方法不行时尝试另一种 “Let me try a different approach…”

2.7 知识蒸馏

DeepSeek 开创性地证明了推理能力可以通过蒸馏迁移到小模型。

蒸馏方法

蒸馏模型性能

模型 基座 AIME 2024 MATH-500
R1-Distill-Qwen-1.5B Qwen2.5-1.5B 28.9% 83.9%
R1-Distill-Qwen-7B Qwen2.5-7B 55.5% 92.8%
R1-Distill-Qwen-14B Qwen2.5-14B 69.7% 93.9%
R1-Distill-Qwen-32B Qwen2.5-32B 72.6% 94.3%
R1-Distill-Llama-8B Llama3.1-8B 50.4% 89.1%
R1-Distill-Llama-70B Llama3.3-70B 70.0% 94.5%

关键发现

2.8 开源推理模型

QwQ(Qwen with Questions)

QwQ 是阿里巴巴 Qwen 团队发布的开源推理模型(2024 年 11 月)。

设计理念

“QwQ approaches every problem with genuine wonder and doubt. It knows that it knows nothing, and that’s precisely what drives its curiosity.”

技术特点

性能表现

已知局限

Marco-o1

阿里巴巴的另一个推理模型 Marco-o1 使用 MCTS 算法生成合成训练数据,结合 CoT 样本进行训练。

主流推理模型对比

模型 参数 开源 训练方法 AIME MATH 发布
GPT-4o - SFT 12% 60.3% 2024.05
o1-preview - RL 44% 85.5% 2024.09
o1 - RL 74% 94.8% 2024.12
QwQ-32B 32B RL 50% 90.6% 2024.11
DeepSeek-R1 671B RL 79.8% 97.3% 2025.01
R1-Distill-32B 32B 蒸馏 72.6% 94.3% 2025.01

训练范式对比

范式 代表模型 特点
大规模 RL + 隐藏推理 o1 闭源,推理过程不可见
GRPO + 多阶段训练 DeepSeek-R1 完全开源,四阶段训练
规则化 RL QwQ 开源权重,长思考链
SFT 蒸馏 R1-Distill 系列 高效获得推理能力

2.9 应用与局限

适用场景

推理大模型特别适合:

当前局限

局限 描述 影响
延迟高 思考时间长 不适合实时交互
成本高 推理 token 消耗大量计算资源 API 调用费用增加
过度思考 简单问题也可能产生冗长推理 资源浪费
循环推理 可能陷入无意义的思考循环 无法收敛
语言混杂 思考过程中可能混合多种语言 可读性降低

开放问题

3. 未来方向

3.1 多模态推理

将推理能力扩展到多模态是重要的研究方向:

方向 能力 应用场景
视觉推理 图像中的逻辑关系推断 数学几何题、图表理解
视频理解 时序推理、事件因果分析 视频问答、动作预测
具身智能 物理世界的规划与交互 机器人操作、自动驾驶

3.2 统一所有模态

当前多数模型主要处理图像和文本,未来将扩展到更多模态:

3.3 推理与 Agent

推理大模型为 AI Agent 提供了更强的规划能力:

能力 描述 价值
任务分解 将复杂任务分解为子任务 降低执行难度
规划 预先规划执行路径 提高成功率
工具使用 决定何时调用什么工具 扩展能力边界
长期目标 追踪并朝向长期目标前进 复杂任务完成

3.4 效率提升

提升推理效率的研究方向:

4. 系列总结

本系列 8 篇文章全面解析了 Transformer 架构及其在大语言模型中的应用:

篇章 主题 核心内容
基础理论 硬件背景、Transformer 计算、Scaling Law
核心组件 Tokenizer、位置编码(RoPE)、门控机制
注意力机制 FlashAttention、MLA、稀疏/线性注意力
模型架构 MoE 稀疏架构、负载均衡
训练技术 数据工程、分布式训练、Muon 优化器
评测体系 MMLU、LiveCodeBench、Chatbot Arena
部署优化 量化、推理引擎、投机解码
前沿应用 多模态、推理大模型

从 2017 年 Transformer 论文发表至今,这一架构已经彻底改变了人工智能领域。展望未来:

我们正处于人工智能发展的黄金时代。希望这个系列能帮助你深入理解这场技术革命的核心。


本系列完结。感谢阅读!

← Back to Home

Comments