基准测试
概述
基准测试(Benchmarks)是评估AI Agent能力的标准化工具。随着Agent技术的快速发展,涌现出大量针对不同能力维度的基准测试。本节全面梳理主要的Agent基准测试,包括任务描述、评估指标、当前最优结果和局限性。
基准测试全景
graph TD
A[Agent基准测试] --> B[通用能力]
A --> C[代码能力]
A --> D[Web能力]
A --> E[工具使用]
A --> F[桌面操作]
B --> B1[AgentBench]
B --> B2[GAIA]
C --> C1[SWE-bench]
C --> C2[HumanEval]
D --> D1[WebArena]
D --> D2[Mind2Web]
E --> E1[τ-bench]
E --> E2[ToolBench]
F --> F1[OSWorld]
style A fill:#e3f2fd
综合基准测试
AgentBench(Liu et al., 2024)
概述:多领域Agent能力评估基准,覆盖8个不同环境。
| 属性 | 详情 |
|---|---|
| 机构 | 清华大学 |
| 任务数 | 8个环境,共数千个任务 |
| 发布时间 | 2023.08 |
| 论文 | ICLR 2024 |
评估环境:
| 环境 | 任务类型 | 评估指标 |
|---|---|---|
| OS (Operating System) | 终端操作 | 成功率 |
| DB (Database) | SQL查询 | 执行准确率 |
| KG (Knowledge Graph) | 知识图谱推理 | F1 |
| DCG (Digital Card Game) | 策略游戏 | 胜率 |
| LTP (Lateral Thinking) | 横向思维谜题 | 成功率 |
| HouseHold | 家居环境操作 | 成功率 |
| WebShop | 网页购物 | 奖励分数 |
| WebBrowsing | 网页浏览 | 成功率 |
SOTA结果(部分环境):
| 模型 | OS | DB | KG | 整体 |
|---|---|---|---|---|
| GPT-4 | 42.4 | 32.0 | 60.0 | 4.01 |
| Claude 3 | 38.5 | 28.7 | 55.2 | 3.72 |
| Llama-2-70B | 8.3 | 3.2 | 20.1 | 1.08 |
局限性:
- 部分环境过于简化,与真实场景有差距
- 评估指标以二元成功率为主,缺乏细粒度评估
- 开源模型与闭源模型差距显著
GAIA(Mialon et al., 2024)
概述:面向通用AI助手的评估基准,测试Agent在真实场景中解决问题的能力。
| 属性 | 详情 |
|---|---|
| 机构 | Meta, HuggingFace |
| 任务数 | 466个问题 |
| 发布时间 | 2023.11 |
| 论文 | ICLR 2024 |
难度分级:
| 级别 | 说明 | 所需步骤 | 人类准确率 | GPT-4 + 插件 |
|---|---|---|---|---|
| Level 1 | 简单 | 1-3步 | 92% | 44.6% |
| Level 2 | 中等 | 3-5步 | 86% | 16.0% |
| Level 3 | 困难 | 5+步 | 81% | 0% |
特点:
- 任务来自真实世界,需要多步推理和工具使用
- 答案是确定性的(可精确验证)
- 人类表现远超当前AI系统
- 需要综合使用搜索、计算、文件处理等工具
代码基准测试
SWE-bench(Jimenez et al., 2024)
概述:基于真实GitHub Issue的代码修复基准测试。
| 属性 | 详情 |
|---|---|
| 机构 | Princeton |
| 任务数 | 2294个(full)/ 500个(Verified) |
| 发布时间 | 2023.10 |
| 论文 | ICLR 2024 |
任务描述:
- 每个任务是一个真实的GitHub Issue
- Agent需要理解issue描述、定位代码、编写修复补丁
- 通过项目的测试用例验证修复是否正确
评估指标:
\[
\text{Resolve Rate} = \frac{\text{通过所有测试的issue数}}{\text{总issue数}} \times 100\%
\]
SOTA结果(SWE-bench Verified):
| 系统 | Resolve Rate (%) | 日期 |
|---|---|---|
| RAG baseline | 2.7 | 2024.01 |
| SWE-Agent | 18.0 | 2024.04 |
| Agentless | 27.3 | 2024.07 |
| AutoCodeRover-v2 | 30.7 | 2024.08 |
| OpenAI Codex | 49.3 | 2025.05 |
| Claude Code | 72.7 | 2025 |
局限性:
- 仅Python项目(主要是12个流行仓库)
- 以bug修复为主,缺少新功能开发任务
- 测试用例质量不一致
- 不评估代码质量和可维护性
HumanEval(Chen et al., 2021)
概述:函数级别的代码生成基准测试。
| 属性 | 详情 |
|---|---|
| 机构 | OpenAI |
| 任务数 | 164个编程问题 |
| 评估指标 | pass@k |
评估指标:
\[
\text{pass@}k = \mathbb{E}_{\text{problems}} \left[ 1 - \frac{\binom{n-c}{k}}{\binom{n}{k}} \right]
\]
其中 \(n\) 是生成的样本总数,\(c\) 是通过测试的样本数。
SOTA结果:
| 模型 | pass@1 (%) |
|---|---|
| Codex (2021) | 28.8 |
| GPT-4 (2023) | 67.0 |
| Claude 3.5 Sonnet | 92.0 |
| GPT-4o (2024) | 90.2 |
| Claude Opus 4 | 93.0+ |
局限性:
- 问题相对简单(算法题级别)
- 不涉及真实项目的复杂度
- 不评估多文件交互能力
Web基准测试
WebArena(Zhou et al., 2024)
概述:自托管的真实Web环境基准测试。
| 属性 | 详情 |
|---|---|
| 机构 | CMU |
| 任务数 | 812个任务 |
| 环境 | 4个自托管网站 |
| 发布时间 | 2024 |
环境组成:
| 网站 | 类型 | 任务示例 |
|---|---|---|
| OneStopShop | 电商 | 查找最便宜的商品 |
| Reddit-like | 论坛 | 发帖、搜索、评论 |
| GitLab-like | 代码托管 | 创建Issue、提PR |
| CMS | 内容管理 | 创建页面、管理用户 |
SOTA结果:
| 方法 | 成功率 (%) |
|---|---|
| GPT-4 (text only) | 14.4 |
| GPT-4V (multimodal) | 16.4 |
| Agent-E | 25.2 |
| 人类表现 | 78.2 |
Mind2Web(Deng et al., 2023)
概述:大规模真实网站上的Web Agent数据集。
- 2000+个任务,覆盖137个网站
- 31个域(旅行、购物、社交等)
- 评估元素选择和动作预测准确率
工具使用基准测试
τ-bench(Yao et al., 2024)
概述:评估Agent工具使用能力的基准测试。
评估维度:
- 工具选择准确性
- 参数填充正确性
- 工具调用顺序合理性
- 错误处理能力
ToolBench(Qin et al., 2023)
概述:大规模工具使用基准。
- 16000+真实世界API
- 49个类别
- 支持单工具和多工具场景
桌面操作基准测试
OSWorld(Xie et al., 2024)
概述:桌面操作系统环境下的Agent基准测试。
| 属性 | 详情 |
|---|---|
| 环境 | Ubuntu, Windows, macOS |
| 任务数 | 369个任务 |
| 应用 | 常用桌面应用(Office、浏览器等) |
特点:
- 真实操作系统环境(虚拟机)
- 涵盖文件管理、应用操作、系统设置等
- 多步骤、跨应用的复杂任务
SOTA结果:
| 模型 | 成功率 (%) |
|---|---|
| GPT-4V | 12.2 |
| Claude 3 Opus | 11.8 |
| Gemini Pro | 7.5 |
| 人类表现 | 72.4 |
基准测试对比总结
| 基准 | 领域 | 规模 | 环境类型 | 主要指标 | 人类基线 |
|---|---|---|---|---|---|
| AgentBench | 通用 | 8环境 | 模拟+真实 | 综合分数 | - |
| GAIA | 通用 | 466题 | 真实世界 | 准确率 | 92% (L1) |
| SWE-bench | 代码 | 2294题 | 真实仓库 | Resolve率 | - |
| HumanEval | 代码 | 164题 | 沙箱 | pass@k | ~90% |
| WebArena | Web | 812题 | 自托管 | 成功率 | 78.2% |
| OSWorld | 桌面 | 369题 | 虚拟机 | 成功率 | 72.4% |
| τ-bench | 工具 | 多种 | 模拟 | 准确率 | - |
基准测试的局限性
通用问题
- 任务覆盖不全:无法覆盖所有真实场景
- 评估偏差:容易过拟合到特定测试模式
- 成本问题:运行完整基准测试成本很高
- 更新滞后:Agent能力提升快于基准更新
- 缺乏过程评估:大多只评估最终结果
改进方向
- 动态基准:随时间更新的任务池
- 多维评估:综合评估效率、安全性、成本
- 真实环境:更接近真实使用场景
- 人类对齐:关注与人类偏好的一致性
参考文献
- Liu, X., et al. "AgentBench: Evaluating LLMs as Agents." ICLR 2024.
- Mialon, G., et al. "GAIA: A Benchmark for General AI Assistants." ICLR 2024.
- Jimenez, C. E., et al. "SWE-bench: Can Language Models Resolve Real-World GitHub Issues?" ICLR 2024.
- Chen, M., et al. "Evaluating Large Language Models Trained on Code." arXiv:2107.03374, 2021.
- Zhou, S., et al. "WebArena: A Realistic Web Environment for Building Autonomous Agents." ICLR 2024.
- Xie, T., et al. "OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments." NeurIPS 2024.