EN

LLM Notes

LLM 与强化学习学习笔记 - Transformer、RLHF、PPO、DPO 等技术深度解析

Transformer 学习笔记(六):评测与 Benchmark

2025-12-20 · Qi Lu · Views:

本文是 Transformer 系列的第六篇,系统介绍大语言模型的 评测与 Benchmark。评测是一个复杂且快速演进的领域,本文重点关注 2024 年以来顶级模型普遍采用的评测基准。

1. 评测体系概述

1.1 为什么需要多维度评测

单一 benchmark 无法全面反映模型能力:

1.2 现代评测框架

主流模型发布时通常报告以下类别的 benchmark:

维度 核心 Benchmark 备注
知识与理解 MMLU, MMLU-Pro, C-Eval 多学科知识
推理能力 GPQA, ARC-C, BBH 复杂推理
数学能力 GSM8K, MATH-500, AIME 从小学到竞赛
代码能力 HumanEval, LiveCodeBench 代码生成与执行
指令遵循 IFEval, MT-Bench 指令理解与执行
长上下文 RULER, LongBench 长文本处理
多语言 MGSM, C-Eval 非英语能力
安全对齐 TruthfulQA, BBQ 真实性与偏见

2. 知识与理解

2.1 MMLU (Massive Multitask Language Understanding)

MMLU 是最广泛使用的知识评测基准,覆盖 57 个学科:

评测方式

当前水平(5-shot):

模型 MMLU 发布时间
GPT-4o 88.7% 2024.05
Claude 3.5 Sonnet 88.7% 2024.06
DeepSeek-V3 88.5% 2024.12
Qwen2.5-72B 86.1% 2024.09
LLaMA 3.1-405B 88.6% 2024.07

2.2 MMLU-Pro

MMLU 的升级版,解决原版的问题:

区分度更强:MMLU 上 GPT-4 与 Claude 差距约 1%,MMLU-Pro 上差距扩大到 5-10%,更能反映真实能力差异。

2.3 GPQA (Graduate-Level Google-Proof QA)

针对研究生水平的专业问题:

GPQA-Diamond 是其中最难的子集,是区分顶级模型的关键 benchmark:

模型 GPQA-Diamond
DeepSeek-R1 71.5%
o1-preview 73.3%
DeepSeek-V3 59.1%
Claude 3.5 Sonnet 59.4%
GPT-4o 53.6%

3. 推理能力

3.1 BBH (BIG-Bench Hard)

BIG-Bench 中最具挑战性的 23 个任务:

3.2 ARC (AI2 Reasoning Challenge)

科学推理问题:

3.3 HellaSwag

常识推理与句子补全:

4. 数学能力

4.1 GSM8K

小学数学应用题:

当前顶级模型准确率 > 95%,已接近饱和。

4.2 MATH

竞赛级数学问题:

MATH-500:从 MATH 数据集中精选的 500 道高难度题目,是当前主流评测标准。

4.3 AIME (American Invitational Mathematics Examination)

美国数学邀请赛:

数学 Benchmark 性能对比

模型 GSM8K MATH-500 AIME 2024
o1 96.4% 96.4% 74%
DeepSeek-R1 97.3% 97.3% 79.8%
DeepSeek-V3 91.1% 90.2% 39.2%
Claude 3.5 Sonnet 96.4% 78.3% -
GPT-4o 95.8% 76.6% -

5. 代码能力

5.1 HumanEval

Python 函数生成:

HumanEval+:增加更多测试用例,减少假阳性。

5.2 LiveCodeBench

2024 年最重要的代码评测创新,解决数据污染问题:

为什么 LiveCodeBench 重要

5.3 SWE-bench

软件工程真实任务:

代码 Benchmark 性能对比

模型 HumanEval LiveCodeBench SWE-bench Verified
Claude 3.5 Sonnet 92.0% 41.4% 50.8%
DeepSeek-V3 82.6% 40.5% 42.0%
GPT-4o 90.2% 34.2% 38.4%

6. 指令遵循

6.1 IFEval (Instruction Following Evaluation)

测试模型严格遵循指令的能力:

两种指标

IFEval 是 Open LLM Leaderboard 的核心 benchmark 之一。

6.2 MT-Bench

多轮对话评测:

6.3 Arena-Hard

基于 Chatbot Arena 的困难子集:

7. 长上下文评测

7.1 RULER

长上下文能力的系统评测:

任务类型

长度范围:4K 到 128K+

评测:不同长度下的准确率衰减曲线

7.2 LongBench

多任务长文本评测:

7.3 Needle-in-a-Haystack

最简单但直观的长上下文测试:

8. 多语言评测

8.1 C-Eval / CMMLU

中文知识评测:

8.2 MGSM (Multilingual GSM)

多语言数学推理:

9. 安全与对齐

9.1 TruthfulQA

测试模型是否会生成虚假但常见的错误信息:

9.2 SimpleQA

事实准确性评测(OpenAI 2024 发布):

10. 综合评测平台

10.1 Open LLM Leaderboard

Hugging Face 维护的开放评测平台:

当前版本(v2)包含

特点:任何人可以提交模型评测,透明、可复现。

10.2 Chatbot Arena

基于真实用户投票的评测:

10.3 LiveBench

抗污染的动态评测:

11. 评测最佳实践

11.1 避免数据污染

11.2 评测配置标准化

11.3 选择合适的 Benchmark

评测目标 推荐 Benchmark
通用能力快速评估 MMLU-Pro, GPQA-Diamond
数学推理 MATH-500, AIME
代码生成 LiveCodeBench, SWE-bench
指令遵循 IFEval
长上下文 RULER, Needle-in-Haystack
中文能力 C-Eval, CMMLU
真实用户偏好 Chatbot Arena, Arena-Hard

12. 总结

本文系统介绍了大语言模型的评测体系:

维度 关键 Benchmark 当前趋势
知识 MMLU-Pro, GPQA 向更难、更专业发展
数学 MATH-500, AIME 竞赛级题目成为标准
代码 LiveCodeBench 动态更新防止污染
指令 IFEval 可程序验证的约束
综合 Chatbot Arena 真实用户偏好

评测的局限性

下一篇我们将讨论 部署优化,包括模型量化和推理加速技术。

← Back to Home

Comments