跳转至

大模型评测体系:MMLU · SWE-bench · GPQA · Arena

最后更新:2026-04-24

"这个模型比上一代强多少"是 AI 产业最核心也最难回答的问题。本文系统梳理 2020-2026 主流评测基准的演化、当前 SOTA 水平、哪些基准快饱和、哪些还在分化

一句话结论

经典学术 benchmark 基本饱和(MMLU 90%+、HumanEval 95%+),新一代基准聚焦长时程 Agent、复杂推理、真实世界任务(SWE-bench Verified、GPQA Diamond、Humanity's Last Exam)。LMArena(盲评)成为最可信的消费级对比。

三条关键要点

  1. 学术 benchmark 数据污染 + 过拟合严重——MMLU 不再有区分力
  2. SWE-bench Verified(代码 Agent 基准) 是 2025 年最具产业意义的基准,Claude Sonnet 4.5 达 ~70%
  3. LMArena(人类盲评)是对抗过拟合的最可信方式

主要评测基准分类

经典学术 benchmark(已大多饱和)

基准 测什么 SOTA(2025 末) 饱和度
MMLU 多学科知识 90%+ 已饱和
HellaSwag 常识推理 95%+ 饱和
HumanEval Python 代码 95%+ 饱和
GSM8K 小学数学 95%+ 饱和
TriviaQA 事实问答 90%+ 饱和

饱和后这些基准不再有区分力。

新一代(2024-2025 推出)

基准 测什么 SOTA 说明
MMLU-Pro MMLU 升级版 85% 降低 MMLU 污染
GPQA Diamond PhD 级科学问题 78-82% 需要真推理
AIME 2024/2025 美国数学奥赛 80%+(o3) 推理模型主战场
SWE-bench Verified 代码修 bug ~70%(Claude) 产业意义最强
LiveCodeBench 新编程题(防污染) 50-70% 每月更新题目
MATH 竞赛数学 90%+ 快饱和
OSWorld 通用桌面 Agent ~30-40% 长时程 Agent
BEHAVIOR-1k 家庭长时程(具身) <30% 机器人
Humanity's Last Exam (HLE) 顶级难度综合 ~30% 2025 推出
METR Long-horizon 小时级人类专家任务 ~30-50% Agent 长时程
MCP Agent Benchmark MCP 协议 Agent 能力 2026 起

用户感知类

基准 说明
LMArena(前 Chatbot Arena) 人类盲评投票,最可信的消费级对比
Artificial Analysis Intelligence Index 综合多项的聚合

基准的 4 大问题

1. 数据污染

  • 基准题目出现在训练集
  • 模型"记住"答案而非真推理
  • 缓解:LiveCodeBench(每月更新)、HLE(挑战性难)

2. 过拟合

  • 开发者针对 benchmark 调优
  • 单项 +10pp 但实际能力没提升

3. 测不到关键能力

  • 长时程推理 / 多步 Agent / 工具使用缺标准基准
  • 具身智能 / 跨模态评测严重不足

4. 多语言 / 多文化偏差

  • 多数 benchmark 英文为主
  • 中文 / 非英语能力低估

SWE-bench Verified:产业意义最强

为什么重要: - 真实 GitHub issue + commit(500 个修复任务) - 完整 end-to-end(理解 issue → 写代码 → 跑测试) - 与 真实开发者价值直接相关

头部成绩(2025 末): - Claude Sonnet 4.5:~70% - GPT-5:~60% - Gemini 2.5 Pro:~55% - DeepSeek V3:~45%

商业意义:企业直接用 SWE-bench 判断"这个模型能不能做工程"—— 头部差距可以直接转化为 Coding Agent 定价。

LMArena:最可信的消费评测

原理: - 用户盲评 2 个模型的回答 - 基于 Elo 算法排名 - 无法被 benchmark 过拟合 —— 因为问题来自真实用户,不可预测

2025 末排名(近似): 1. Claude Opus 4 2. GPT-5 3. Gemini 2.5 Pro 4. DeepSeek V3.2 5. Grok 4

局限: - 盲评偏好"好看"的回答(可能偏 GPT 风格) - 无法测 Agent、长任务 - 消费用户 ≠ 专业用户

基准率框架

历史规律: - 每代 benchmark 从推出到饱和平均 ~18 个月 - GPT-3 发布(2020)→ MMLU 推出 → GPT-4 (2023)饱和 - GPT-4 发布 → GPQA / AIME → GPT-5 逼近饱和 - 2026 新 benchmark(HLE / SWE-bench Pro / Agent evals)会是下一波标尺

警告:benchmark 从 60% 到 90% 用时比从 0% 到 60% 长得多——接近饱和时分数上涨不代表能力大幅提升

2026 关键变量

  1. 新 Agent 基准标准化:OSWorld、METR 等谁成主流
  2. SWE-bench Pro:更难的版本
  3. 多模态综合评测:能否建立被广泛接受的多模态 benchmark
  4. 中文 benchmark:C-Eval / CMMLU 升级版
  5. 现实业务评测:如"某 Agent 能否完成一个工作日的后端开发任务"

我的判断

我的看法

  1. benchmark 数字增长快,真能力提升慢——每 10pp 的差距实际业务意义越来越小
  2. SWE-bench + LMArena + METR 是 2026 年最值得追踪的三个维度
  3. 我不看单项 benchmark 排名,看 3-5 个互补基准的综合表现 + 用户反馈
  4. 评测本身成为商业护城河:Artificial Analysis / LMArena 等独立评测机构会是新基础设施

我可能错在哪里: - 某个 benchmark 设计得特别好,真的锚定能力进展 - 企业采购决策越来越简单化(看 SWE-bench 就选模型) - 中国评测体系可能自立门户(不用英文 benchmark)

延伸阅读

  • LMArena.ai · 实时排行
  • Artificial Analysis · 综合评测
  • Stanford HAI AI Index · 每年 benchmark 年度综述
  • 本站 · 推理模型专题 · 基准率框架