Agent 评测体系:τ-bench · OSWorld · GAIA · SWE-bench
最后更新:2026-04-24
Agent 评测比 LLM 评测难一个数量级——LLM 是"一次输入一次输出",Agent 是"多步骤 + 工具调用 + 状态演化"。2024-2026 主流 Agent benchmark 分四类:通用能力(GAIA)、任务执行(τ-bench / OSWorld)、编程(SWE-bench 已专题)、浏览器(WebArena / VisualWebArena)。
一句话结论
Agent 评测 2026 仍处于早期 —— 没有一个基准能像 LLM 的 MMLU 那样被业界一致接受。τ-bench(Sierra 2024 发布)+ OSWorld(2024)+ GAIA(Meta 2023) 是目前三大通用 Agent 基准,但成绩与真实生产使用仍有巨大差距。
三条关键要点
- τ-bench(Tau-bench,Sierra 开源)测试 Agent 在模拟客服场景的完成率,接近真实企业任务
- OSWorld 测试 Agent 在真实 Ubuntu 桌面执行任务,最贴近 Computer Use 场景
- GAIA 测试 Agent 的通用问题解决能力,涵盖 web / file / math / vision
通用 Agent Benchmarks
1. GAIA(Meta 2023)
- 题目:466 道人类设计的真实 query
- 难度分级:Level 1-3
- 考核:多步骤 + 工具调用 + 综合推理
- 代表分数(Level 1):
- GPT-4 Plus Plugins:30%
- ChatGPT Deep Research:~90%
- 人类:~92%
- 优势:人类 curated,覆盖真实场景
2. τ-bench / Tau-bench(Sierra 2024-06)
- 题目:模拟航空公司 / 零售客服场景
- 考核:Agent 通过 Function Calling 完成用户请求
- 特色:
- 客户模拟(用 LLM 扮演客户)
- policy compliance 检查(是否符合公司规则)
- 可复现 pass@k
- 代表分数:
- Claude 3.5 Sonnet: ~55%
- GPT-4o: ~48%
- o3: ~65%
- 争议:Sierra 自己出基准,有利益关系
3. OSWorld(CMU / NUS 2024)
- 题目:369 个真实 Ubuntu 任务(文件操作、软件使用、浏览器)
- 考核:Agent 在虚拟机环境执行
- 特色:最接近 Computer Use 真实场景
- 代表分数:
- Claude Computer Use: ~22%
- Claude 4 Opus + CU: ~35%
- Human: ~72%
- 挑战:生产化差距仍大(Agent < 50%,人类 > 70%)
4. AndroidWorld(2024)
- OSWorld 的移动版
- 116 道 Android 任务
5. WebArena / VisualWebArena(CMU 2023-2024)
- 题目:自建 Web 环境任务
- 电商 / 论坛 / GitLab / 地图等
- 代表分数:
- Browser Use + GPT-4o: ~30%
- 人类:~78%
6. AgentBench(清华 / THUDM 2023)
- 学术综合 benchmark
- 覆盖 operating systems / databases / web / games 等
- 2024 起少人更新
7. MLE-bench(OpenAI 2024-10)
- 让 Agent 完成 Kaggle 级机器学习任务
- 评分:获得奖牌的比例
编程 Agent Benchmarks(详见 Coding Agent 评测)
- SWE-bench Verified:500 题 GitHub issue
- LiveCodeBench:时间戳防污染
- Terminal-Bench:终端任务
- Aider Benchmark:真实代码编辑
浏览器 Agent Benchmarks
WebArena
- 学术
- 4 类 Web app 任务
- 代表分数低
BrowserGym / ChatArena
- 行业实验
Mind2Web
- CMU 研究
- 真实网站任务
WorkArena
- ServiceNow 企业场景任务
多 Agent / 协作 Benchmarks
ChatDev / MetaGPT 基准
- 研究型
- 规模小
Agentbench Multi-Agent
- 清华扩展
- 研究用
2026-Q1 综合 Agent 排行(粗估)
| Agent / 模型 | GAIA L1 | τ-bench(retail) | OSWorld | SWE-bench V |
|---|---|---|---|---|
| ChatGPT Deep Research + o3 | ~92% | ~60% | ~40% | ~70% |
| Claude 4 Opus + Claude Code | ~85% | ~68% | ~35% | ~72% |
| Gemini 2.5 Pro Deep Think | ~80% | ~55% | ~30% | ~64% |
| DeepSeek R1 | ~55% | ~40% | ~20% | ~53% |
| Browser Use + GPT-4o | ~60% | ~45% | ~25% | N/A |
评测的 5 大方法论挑战
1 · 可复现
- Agent 多次跑结果不同(temperature / 工具状态)
- 需要 pass@k 或多次平均
2 · 环境一致性
- 真实 Web 变化(CAPTCHA、UI 改版)
- 用 mock / fixed 环境失去真实性
3 · 评分自动化
- 部分任务需"结果好不好"判断
- 用 LLM 做 judge 引入新偏差
4 · 成本 / 时间不公平
- Agent A 花 10 分钟 + $5,Agent B 花 2 分钟 + $0.5
- 不带成本的分数误导
5 · Benchmark 过拟合
- Anthropic / OpenAI 会针对 benchmark 优化
- 生产环境效果 ≠ benchmark 分数
用 基准率框架 看 "Agent OSWorld 35%" 意味着什么
基准率参照: - 人类:OSWorld ~72% - 初学者:~40% - 专业用户:~80%
Agent 35% = 初学者的一半,远未达到生产可用。
和其他技术对比
- 语音识别:1990 年代 60% → 2010 年代 99%(用了 20 年)
- 自动驾驶:L4 demo 2016 → 至今未规模化
- Agent OSWorld 的演进 curve 类似自动驾驶,可能需要 5-10 年
用 Scaling Laws 框架 看 Agent 进展速度
2023-2026 OSWorld 进展: - 2024-Q2:Claude 3.5 + CU:~15% - 2025-Q1:Claude 3.7 + CU:~22% - 2025-Q3:Claude 4 + CU:~30% - 2026-Q1:~35%
2 年从 15% → 35% 是稳定进展,但 60%+(接近人类)可能还需 3-5 年。
2026 关键变量
- τ-bench 2.0:Sierra 发布更复杂场景
- AgentBench Pro:企业级统一 benchmark(可能的行业联盟)
- 生产数据评测:基于真实用户反馈的评分(类似 LMSYS Arena 但针对 Agent)
- 成本约束 benchmark:按"$ / 成功任务" 排名
- 中文 Agent benchmark:DeepSeek / Kimi / 智谱 内部已有,何时开源
我的判断
我的看法:
- τ-bench + OSWorld 会成为 2026-2027 事实标准,类似 MMLU 在 LLM 的地位
- Agent benchmark 的"MMLU 时刻"还没到:仍需行业共识
- 成本 + 时间会成为强制指标:单纯分数已不够
- 生产使用数据 > Benchmark:未来厂商会公开"真实成功率"
- Benchmark 驱动的研究进展"人家已经干到 35%","我们还在 15%" 的压力逼迫所有厂商参与
我可能错在哪里: - 出现全新"杀手级" benchmark(例如 ARC-AGI 2025 引爆) - Agent 被非 benchmark 方式评估(纯商业指标) - Meta / DeepMind 发布碾压性 benchmark 改变格局
延伸阅读
- Meta · GAIA paper(arxiv.org/abs/2311.12983)
- Sierra · τ-bench GitHub
- CMU · OSWorld paper
- 本站 · Coding Agent 评测 · Agent 安全边界 · 基准率框架