大模型评测体系:MMLU · SWE-bench · GPQA · Arena
最后更新:2026-04-24
"这个模型比上一代强多少"是 AI 产业最核心也最难回答的问题。本文系统梳理 2020-2026 主流评测基准的演化、当前 SOTA 水平、哪些基准快饱和、哪些还在分化。
一句话结论
经典学术 benchmark 基本饱和(MMLU 90%+、HumanEval 95%+),新一代基准聚焦长时程 Agent、复杂推理、真实世界任务(SWE-bench Verified、GPQA Diamond、Humanity's Last Exam)。LMArena(盲评)成为最可信的消费级对比。
三条关键要点
- 学术 benchmark 数据污染 + 过拟合严重——MMLU 不再有区分力
- SWE-bench Verified(代码 Agent 基准) 是 2025 年最具产业意义的基准,Claude Sonnet 4.5 达 ~70%
- LMArena(人类盲评)是对抗过拟合的最可信方式
主要评测基准分类
经典学术 benchmark(已大多饱和)
| 基准 | 测什么 | SOTA(2025 末) | 饱和度 |
|---|---|---|---|
| MMLU | 多学科知识 | 90%+ | 已饱和 |
| HellaSwag | 常识推理 | 95%+ | 饱和 |
| HumanEval | Python 代码 | 95%+ | 饱和 |
| GSM8K | 小学数学 | 95%+ | 饱和 |
| TriviaQA | 事实问答 | 90%+ | 饱和 |
饱和后这些基准不再有区分力。
新一代(2024-2025 推出)
| 基准 | 测什么 | SOTA | 说明 |
|---|---|---|---|
| MMLU-Pro | MMLU 升级版 | 85% | 降低 MMLU 污染 |
| GPQA Diamond | PhD 级科学问题 | 78-82% | 需要真推理 |
| AIME 2024/2025 | 美国数学奥赛 | 80%+(o3) | 推理模型主战场 |
| SWE-bench Verified | 代码修 bug | ~70%(Claude) | 产业意义最强 |
| LiveCodeBench | 新编程题(防污染) | 50-70% | 每月更新题目 |
| MATH | 竞赛数学 | 90%+ | 快饱和 |
| OSWorld | 通用桌面 Agent | ~30-40% | 长时程 Agent |
| BEHAVIOR-1k | 家庭长时程(具身) | <30% | 机器人 |
| Humanity's Last Exam (HLE) | 顶级难度综合 | ~30% | 2025 推出 |
| METR Long-horizon | 小时级人类专家任务 | ~30-50% | Agent 长时程 |
| MCP Agent Benchmark | MCP 协议 Agent 能力 | 新 | 2026 起 |
用户感知类
| 基准 | 说明 |
|---|---|
| LMArena(前 Chatbot Arena) | 人类盲评投票,最可信的消费级对比 |
| Artificial Analysis Intelligence Index | 综合多项的聚合 |
基准的 4 大问题
1. 数据污染
- 基准题目出现在训练集
- 模型"记住"答案而非真推理
- 缓解:LiveCodeBench(每月更新)、HLE(挑战性难)
2. 过拟合
- 开发者针对 benchmark 调优
- 单项 +10pp 但实际能力没提升
3. 测不到关键能力
- 长时程推理 / 多步 Agent / 工具使用缺标准基准
- 具身智能 / 跨模态评测严重不足
4. 多语言 / 多文化偏差
- 多数 benchmark 英文为主
- 中文 / 非英语能力低估
SWE-bench Verified:产业意义最强
为什么重要: - 真实 GitHub issue + commit(500 个修复任务) - 完整 end-to-end(理解 issue → 写代码 → 跑测试) - 与 真实开发者价值直接相关
头部成绩(2025 末): - Claude Sonnet 4.5:~70% - GPT-5:~60% - Gemini 2.5 Pro:~55% - DeepSeek V3:~45%
商业意义:企业直接用 SWE-bench 判断"这个模型能不能做工程"—— 头部差距可以直接转化为 Coding Agent 定价。
LMArena:最可信的消费评测
原理: - 用户盲评 2 个模型的回答 - 基于 Elo 算法排名 - 无法被 benchmark 过拟合 —— 因为问题来自真实用户,不可预测
2025 末排名(近似): 1. Claude Opus 4 2. GPT-5 3. Gemini 2.5 Pro 4. DeepSeek V3.2 5. Grok 4
局限: - 盲评偏好"好看"的回答(可能偏 GPT 风格) - 无法测 Agent、长任务 - 消费用户 ≠ 专业用户
用 基准率框架 看
历史规律: - 每代 benchmark 从推出到饱和平均 ~18 个月 - GPT-3 发布(2020)→ MMLU 推出 → GPT-4 (2023)饱和 - GPT-4 发布 → GPQA / AIME → GPT-5 逼近饱和 - 2026 新 benchmark(HLE / SWE-bench Pro / Agent evals)会是下一波标尺
警告:benchmark 从 60% 到 90% 用时比从 0% 到 60% 长得多——接近饱和时分数上涨不代表能力大幅提升。
2026 关键变量
- 新 Agent 基准标准化:OSWorld、METR 等谁成主流
- SWE-bench Pro:更难的版本
- 多模态综合评测:能否建立被广泛接受的多模态 benchmark
- 中文 benchmark:C-Eval / CMMLU 升级版
- 现实业务评测:如"某 Agent 能否完成一个工作日的后端开发任务"
我的判断
我的看法:
- benchmark 数字增长快,真能力提升慢——每 10pp 的差距实际业务意义越来越小
- SWE-bench + LMArena + METR 是 2026 年最值得追踪的三个维度
- 我不看单项 benchmark 排名,看 3-5 个互补基准的综合表现 + 用户反馈
- 评测本身成为商业护城河:Artificial Analysis / LMArena 等独立评测机构会是新基础设施
我可能错在哪里: - 某个 benchmark 设计得特别好,真的锚定能力进展 - 企业采购决策越来越简单化(看 SWE-bench 就选模型) - 中国评测体系可能自立门户(不用英文 benchmark)