基准测试

概述

基准测试（Benchmarks）是评估AI Agent能力的标准化工具。随着Agent技术的快速发展，涌现出大量针对不同能力维度的基准测试。本节全面梳理主要的Agent基准测试，包括任务描述、评估指标、当前最优结果和局限性。

基准测试全景

graph TD
    A[Agent基准测试] --> B[通用能力]
    A --> C[代码能力]
    A --> D[Web能力]
    A --> E[工具使用]
    A --> F[桌面操作]

    B --> B1[AgentBench]
    B --> B2[GAIA]

    C --> C1[SWE-bench]
    C --> C2[HumanEval]

    D --> D1[WebArena]
    D --> D2[Mind2Web]

    E --> E1[τ-bench]
    E --> E2[ToolBench]

    F --> F1[OSWorld]

    style A fill:#e3f2fd

综合基准测试

AgentBench（Liu et al., 2024）

概述：多领域Agent能力评估基准，覆盖8个不同环境。

属性	详情
机构	清华大学
任务数	8个环境，共数千个任务
发布时间	2023.08
论文	ICLR 2024

评估环境：

环境	任务类型	评估指标
OS (Operating System)	终端操作	成功率
DB (Database)	SQL查询	执行准确率
KG (Knowledge Graph)	知识图谱推理	F1
DCG (Digital Card Game)	策略游戏	胜率
LTP (Lateral Thinking)	横向思维谜题	成功率
HouseHold	家居环境操作	成功率
WebShop	网页购物	奖励分数
WebBrowsing	网页浏览	成功率

SOTA结果（部分环境）：

模型	OS	DB	KG	整体
GPT-4	42.4	32.0	60.0	4.01
Claude 3	38.5	28.7	55.2	3.72
Llama-2-70B	8.3	3.2	20.1	1.08

局限性：

部分环境过于简化，与真实场景有差距
评估指标以二元成功率为主，缺乏细粒度评估
开源模型与闭源模型差距显著

GAIA（Mialon et al., 2024）

概述：面向通用AI助手的评估基准，测试Agent在真实场景中解决问题的能力。

属性	详情
机构	Meta, HuggingFace
任务数	466个问题
发布时间	2023.11
论文	ICLR 2024

难度分级：

级别	说明	所需步骤	人类准确率	GPT-4 + 插件
Level 1	简单	1-3步	92%	44.6%
Level 2	中等	3-5步	86%	16.0%
Level 3	困难	5+步	81%	0%

特点：

任务来自真实世界，需要多步推理和工具使用
答案是确定性的（可精确验证）
人类表现远超当前AI系统
需要综合使用搜索、计算、文件处理等工具

代码基准测试

SWE-bench（Jimenez et al., 2024）

概述：基于真实GitHub Issue的代码修复基准测试。

属性	详情
机构	Princeton
任务数	2294个（full）/ 500个（Verified）
发布时间	2023.10
论文	ICLR 2024

任务描述：

每个任务是一个真实的GitHub Issue
Agent需要理解issue描述、定位代码、编写修复补丁
通过项目的测试用例验证修复是否正确

评估指标：

\[ \text{Resolve Rate} = \frac{\text{通过所有测试的issue数}}{\text{总issue数}} \times 100\% \]

SOTA结果（SWE-bench Verified）：

系统	Resolve Rate (%)	日期
RAG baseline	2.7	2024.01
SWE-Agent	18.0	2024.04
Agentless	27.3	2024.07
AutoCodeRover-v2	30.7	2024.08
OpenAI Codex	49.3	2025.05
Claude Code	72.7	2025

局限性：

仅Python项目（主要是12个流行仓库）
以bug修复为主，缺少新功能开发任务
测试用例质量不一致
不评估代码质量和可维护性

HumanEval（Chen et al., 2021）

概述：函数级别的代码生成基准测试。

属性	详情
机构	OpenAI
任务数	164个编程问题
评估指标	pass@k

评估指标：

\[ \text{pass@}k = \mathbb{E}_{\text{problems}} \left[ 1 - \frac{\binom{n-c}{k}}{\binom{n}{k}} \right] \]

其中 \(n\) 是生成的样本总数，\(c\) 是通过测试的样本数。

SOTA结果：

模型	pass@1 (%)
Codex (2021)	28.8
GPT-4 (2023)	67.0
Claude 3.5 Sonnet	92.0
GPT-4o (2024)	90.2
Claude Opus 4	93.0+

局限性：

问题相对简单（算法题级别）
不涉及真实项目的复杂度
不评估多文件交互能力

Web基准测试

WebArena（Zhou et al., 2024）

概述：自托管的真实Web环境基准测试。

属性	详情
机构	CMU
任务数	812个任务
环境	4个自托管网站
发布时间	2024

环境组成：

网站	类型	任务示例
OneStopShop	电商	查找最便宜的商品
Reddit-like	论坛	发帖、搜索、评论
GitLab-like	代码托管	创建Issue、提PR
CMS	内容管理	创建页面、管理用户

SOTA结果：

方法	成功率 (%)
GPT-4 (text only)	14.4
GPT-4V (multimodal)	16.4
Agent-E	25.2
人类表现	78.2

Mind2Web（Deng et al., 2023）

概述：大规模真实网站上的Web Agent数据集。

2000+个任务，覆盖137个网站
31个域（旅行、购物、社交等）
评估元素选择和动作预测准确率

工具使用基准测试

τ-bench（Yao et al., 2024）

概述：评估Agent工具使用能力的基准测试。

评估维度：

工具选择准确性
参数填充正确性
工具调用顺序合理性
错误处理能力

ToolBench（Qin et al., 2023）

概述：大规模工具使用基准。

16000+真实世界API
49个类别
支持单工具和多工具场景

桌面操作基准测试

OSWorld（Xie et al., 2024）

概述：桌面操作系统环境下的Agent基准测试。

属性	详情
环境	Ubuntu, Windows, macOS
任务数	369个任务
应用	常用桌面应用（Office、浏览器等）

特点：

真实操作系统环境（虚拟机）
涵盖文件管理、应用操作、系统设置等
多步骤、跨应用的复杂任务

SOTA结果：

模型	成功率 (%)
GPT-4V	12.2
Claude 3 Opus	11.8
Gemini Pro	7.5
人类表现	72.4

基准测试对比总结

基准	领域	规模	环境类型	主要指标	人类基线
AgentBench	通用	8环境	模拟+真实	综合分数	-
GAIA	通用	466题	真实世界	准确率	92% (L1)
SWE-bench	代码	2294题	真实仓库	Resolve率	-
HumanEval	代码	164题	沙箱	pass@k	~90%
WebArena	Web	812题	自托管	成功率	78.2%
OSWorld	桌面	369题	虚拟机	成功率	72.4%
τ-bench	工具	多种	模拟	准确率	-

基准测试的局限性

通用问题

任务覆盖不全：无法覆盖所有真实场景
评估偏差：容易过拟合到特定测试模式
成本问题：运行完整基准测试成本很高
更新滞后：Agent能力提升快于基准更新
缺乏过程评估：大多只评估最终结果

改进方向

动态基准：随时间更新的任务池
多维评估：综合评估效率、安全性、成本
真实环境：更接近真实使用场景
人类对齐：关注与人类偏好的一致性

参考文献

Liu, X., et al. "AgentBench: Evaluating LLMs as Agents." ICLR 2024.
Mialon, G., et al. "GAIA: A Benchmark for General AI Assistants." ICLR 2024.
Jimenez, C. E., et al. "SWE-bench: Can Language Models Resolve Real-World GitHub Issues?" ICLR 2024.
Chen, M., et al. "Evaluating Large Language Models Trained on Code." arXiv:2107.03374, 2021.
Zhou, S., et al. "WebArena: A Realistic Web Environment for Building Autonomous Agents." ICLR 2024.
Xie, T., et al. "OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments." NeurIPS 2024.

交叉引用： - 代码智能体 → 代码生成智能体 - Web智能体 → Web智能体 - 评估方法 → 评估方法综述

基准测试

概述

基准测试全景

综合基准测试

AgentBench（Liu et al., 2024）

GAIA（Mialon et al., 2024）

代码基准测试

SWE-bench（Jimenez et al., 2024）

HumanEval（Chen et al., 2021）

Web基准测试

WebArena（Zhou et al., 2024）

Mind2Web（Deng et al., 2023）

工具使用基准测试

τ-bench（Yao et al., 2024）

ToolBench（Qin et al., 2023）

桌面操作基准测试

OSWorld（Xie et al., 2024）

基准测试对比总结

基准测试的局限性

通用问题

改进方向

参考文献

评论 #