大模型评测体系：MMLU · SWE-bench · GPQA · Arena

最后更新：2026-04-24

"这个模型比上一代强多少"是 AI 产业最核心也最难回答的问题。本文系统梳理 2020-2026 主流评测基准的演化、当前 SOTA 水平、哪些基准快饱和、哪些还在分化。

一句话结论

经典学术 benchmark 基本饱和（MMLU 90%+、HumanEval 95%+），新一代基准聚焦长时程 Agent、复杂推理、真实世界任务（SWE-bench Verified、GPQA Diamond、Humanity's Last Exam）。LMArena（盲评）成为最可信的消费级对比。

三条关键要点

学术 benchmark 数据污染 + 过拟合严重——MMLU 不再有区分力
SWE-bench Verified（代码 Agent 基准） 是 2025 年最具产业意义的基准，Claude Sonnet 4.5 达 ~70%
LMArena（人类盲评）是对抗过拟合的最可信方式

主要评测基准分类

经典学术 benchmark（已大多饱和）

基准	测什么	SOTA（2025 末）	饱和度
MMLU	多学科知识	90%+	已饱和
HellaSwag	常识推理	95%+	饱和
HumanEval	Python 代码	95%+	饱和
GSM8K	小学数学	95%+	饱和
TriviaQA	事实问答	90%+	饱和

饱和后这些基准不再有区分力。

新一代（2024-2025 推出）

基准	测什么	SOTA	说明
MMLU-Pro	MMLU 升级版	85%	降低 MMLU 污染
GPQA Diamond	PhD 级科学问题	78-82%	需要真推理
AIME 2024/2025	美国数学奥赛	80%+（o3）	推理模型主战场
SWE-bench Verified	代码修 bug	~70%（Claude）	产业意义最强
LiveCodeBench	新编程题（防污染）	50-70%	每月更新题目
MATH	竞赛数学	90%+	快饱和
OSWorld	通用桌面 Agent	~30-40%	长时程 Agent
BEHAVIOR-1k	家庭长时程（具身）	<30%	机器人
Humanity's Last Exam (HLE)	顶级难度综合	~30%	2025 推出
METR Long-horizon	小时级人类专家任务	~30-50%	Agent 长时程
MCP Agent Benchmark	MCP 协议 Agent 能力	新	2026 起

用户感知类

基准	说明
LMArena（前 Chatbot Arena）	人类盲评投票，最可信的消费级对比
Artificial Analysis Intelligence Index	综合多项的聚合

基准的 4 大问题

1. 数据污染

基准题目出现在训练集
模型"记住"答案而非真推理
缓解：LiveCodeBench（每月更新）、HLE（挑战性难）

2. 过拟合

开发者针对 benchmark 调优
单项 +10pp 但实际能力没提升

3. 测不到关键能力

长时程推理 / 多步 Agent / 工具使用缺标准基准
具身智能 / 跨模态评测严重不足

4. 多语言 / 多文化偏差

多数 benchmark 英文为主
中文 / 非英语能力低估

SWE-bench Verified：产业意义最强

为什么重要： - 真实 GitHub issue + commit（500 个修复任务） - 完整 end-to-end（理解 issue → 写代码 → 跑测试） - 与 真实开发者价值直接相关

头部成绩（2025 末）： - Claude Sonnet 4.5：~70% - GPT-5：~60% - Gemini 2.5 Pro：~55% - DeepSeek V3：~45%

商业意义：企业直接用 SWE-bench 判断"这个模型能不能做工程"—— 头部差距可以直接转化为 Coding Agent 定价。

LMArena：最可信的消费评测

原理： - 用户盲评 2 个模型的回答 - 基于 Elo 算法排名 - 无法被 benchmark 过拟合 —— 因为问题来自真实用户，不可预测

2025 末排名（近似）： 1. Claude Opus 4 2. GPT-5 3. Gemini 2.5 Pro 4. DeepSeek V3.2 5. Grok 4

局限： - 盲评偏好"好看"的回答（可能偏 GPT 风格） - 无法测 Agent、长任务 - 消费用户 ≠ 专业用户

用基准率框架看

历史规律： - 每代 benchmark 从推出到饱和平均 ~18 个月 - GPT-3 发布（2020）→ MMLU 推出 → GPT-4 （2023）饱和 - GPT-4 发布 → GPQA / AIME → GPT-5 逼近饱和 - 2026 新 benchmark（HLE / SWE-bench Pro / Agent evals）会是下一波标尺

警告：benchmark 从 60% 到 90% 用时比从 0% 到 60% 长得多——接近饱和时分数上涨不代表能力大幅提升。

2026 关键变量

新 Agent 基准标准化：OSWorld、METR 等谁成主流
SWE-bench Pro：更难的版本
多模态综合评测：能否建立被广泛接受的多模态 benchmark
中文 benchmark：C-Eval / CMMLU 升级版
现实业务评测：如"某 Agent 能否完成一个工作日的后端开发任务"

我的判断

我的看法：

benchmark 数字增长快，真能力提升慢——每 10pp 的差距实际业务意义越来越小

SWE-bench + LMArena + METR 是 2026 年最值得追踪的三个维度

我不看单项 benchmark 排名，看 3-5 个互补基准的综合表现 + 用户反馈

评测本身成为商业护城河：Artificial Analysis / LMArena 等独立评测机构会是新基础设施

我可能错在哪里： - 某个 benchmark 设计得特别好，真的锚定能力进展 - 企业采购决策越来越简单化（看 SWE-bench 就选模型） - 中国评测体系可能自立门户（不用英文 benchmark）

延伸阅读

LMArena.ai · 实时排行
Artificial Analysis · 综合评测
Stanford HAI AI Index · 每年 benchmark 年度综述
本站 · 推理模型专题 · 基准率框架