跳转至

基准测试

概述

基准测试(Benchmarks)是评估AI Agent能力的标准化工具。随着Agent技术的快速发展,涌现出大量针对不同能力维度的基准测试。本节全面梳理主要的Agent基准测试,包括任务描述、评估指标、当前最优结果和局限性。

基准测试全景

graph TD
    A[Agent基准测试] --> B[通用能力]
    A --> C[代码能力]
    A --> D[Web能力]
    A --> E[工具使用]
    A --> F[桌面操作]

    B --> B1[AgentBench]
    B --> B2[GAIA]

    C --> C1[SWE-bench]
    C --> C2[HumanEval]

    D --> D1[WebArena]
    D --> D2[Mind2Web]

    E --> E1[τ-bench]
    E --> E2[ToolBench]

    F --> F1[OSWorld]

    style A fill:#e3f2fd

综合基准测试

AgentBench(Liu et al., 2024)

概述:多领域Agent能力评估基准,覆盖8个不同环境。

属性 详情
机构 清华大学
任务数 8个环境,共数千个任务
发布时间 2023.08
论文 ICLR 2024

评估环境

环境 任务类型 评估指标
OS (Operating System) 终端操作 成功率
DB (Database) SQL查询 执行准确率
KG (Knowledge Graph) 知识图谱推理 F1
DCG (Digital Card Game) 策略游戏 胜率
LTP (Lateral Thinking) 横向思维谜题 成功率
HouseHold 家居环境操作 成功率
WebShop 网页购物 奖励分数
WebBrowsing 网页浏览 成功率

SOTA结果(部分环境):

模型 OS DB KG 整体
GPT-4 42.4 32.0 60.0 4.01
Claude 3 38.5 28.7 55.2 3.72
Llama-2-70B 8.3 3.2 20.1 1.08

局限性

  • 部分环境过于简化,与真实场景有差距
  • 评估指标以二元成功率为主,缺乏细粒度评估
  • 开源模型与闭源模型差距显著

GAIA(Mialon et al., 2024)

概述:面向通用AI助手的评估基准,测试Agent在真实场景中解决问题的能力。

属性 详情
机构 Meta, HuggingFace
任务数 466个问题
发布时间 2023.11
论文 ICLR 2024

难度分级

级别 说明 所需步骤 人类准确率 GPT-4 + 插件
Level 1 简单 1-3步 92% 44.6%
Level 2 中等 3-5步 86% 16.0%
Level 3 困难 5+步 81% 0%

特点

  • 任务来自真实世界,需要多步推理和工具使用
  • 答案是确定性的(可精确验证)
  • 人类表现远超当前AI系统
  • 需要综合使用搜索、计算、文件处理等工具

代码基准测试

SWE-bench(Jimenez et al., 2024)

概述:基于真实GitHub Issue的代码修复基准测试。

属性 详情
机构 Princeton
任务数 2294个(full)/ 500个(Verified)
发布时间 2023.10
论文 ICLR 2024

任务描述

  • 每个任务是一个真实的GitHub Issue
  • Agent需要理解issue描述、定位代码、编写修复补丁
  • 通过项目的测试用例验证修复是否正确

评估指标

\[ \text{Resolve Rate} = \frac{\text{通过所有测试的issue数}}{\text{总issue数}} \times 100\% \]

SOTA结果(SWE-bench Verified)

系统 Resolve Rate (%) 日期
RAG baseline 2.7 2024.01
SWE-Agent 18.0 2024.04
Agentless 27.3 2024.07
AutoCodeRover-v2 30.7 2024.08
OpenAI Codex 49.3 2025.05
Claude Code 72.7 2025

局限性

  • 仅Python项目(主要是12个流行仓库)
  • 以bug修复为主,缺少新功能开发任务
  • 测试用例质量不一致
  • 不评估代码质量和可维护性

HumanEval(Chen et al., 2021)

概述:函数级别的代码生成基准测试。

属性 详情
机构 OpenAI
任务数 164个编程问题
评估指标 pass@k

评估指标

\[ \text{pass@}k = \mathbb{E}_{\text{problems}} \left[ 1 - \frac{\binom{n-c}{k}}{\binom{n}{k}} \right] \]

其中 \(n\) 是生成的样本总数,\(c\) 是通过测试的样本数。

SOTA结果

模型 pass@1 (%)
Codex (2021) 28.8
GPT-4 (2023) 67.0
Claude 3.5 Sonnet 92.0
GPT-4o (2024) 90.2
Claude Opus 4 93.0+

局限性

  • 问题相对简单(算法题级别)
  • 不涉及真实项目的复杂度
  • 不评估多文件交互能力

Web基准测试

WebArena(Zhou et al., 2024)

概述:自托管的真实Web环境基准测试。

属性 详情
机构 CMU
任务数 812个任务
环境 4个自托管网站
发布时间 2024

环境组成

网站 类型 任务示例
OneStopShop 电商 查找最便宜的商品
Reddit-like 论坛 发帖、搜索、评论
GitLab-like 代码托管 创建Issue、提PR
CMS 内容管理 创建页面、管理用户

SOTA结果

方法 成功率 (%)
GPT-4 (text only) 14.4
GPT-4V (multimodal) 16.4
Agent-E 25.2
人类表现 78.2

Mind2Web(Deng et al., 2023)

概述:大规模真实网站上的Web Agent数据集。

  • 2000+个任务,覆盖137个网站
  • 31个域(旅行、购物、社交等)
  • 评估元素选择和动作预测准确率

工具使用基准测试

τ-bench(Yao et al., 2024)

概述:评估Agent工具使用能力的基准测试。

评估维度

  • 工具选择准确性
  • 参数填充正确性
  • 工具调用顺序合理性
  • 错误处理能力

ToolBench(Qin et al., 2023)

概述:大规模工具使用基准。

  • 16000+真实世界API
  • 49个类别
  • 支持单工具和多工具场景

桌面操作基准测试

OSWorld(Xie et al., 2024)

概述:桌面操作系统环境下的Agent基准测试。

属性 详情
环境 Ubuntu, Windows, macOS
任务数 369个任务
应用 常用桌面应用(Office、浏览器等)

特点

  • 真实操作系统环境(虚拟机)
  • 涵盖文件管理、应用操作、系统设置等
  • 多步骤、跨应用的复杂任务

SOTA结果

模型 成功率 (%)
GPT-4V 12.2
Claude 3 Opus 11.8
Gemini Pro 7.5
人类表现 72.4

基准测试对比总结

基准 领域 规模 环境类型 主要指标 人类基线
AgentBench 通用 8环境 模拟+真实 综合分数 -
GAIA 通用 466题 真实世界 准确率 92% (L1)
SWE-bench 代码 2294题 真实仓库 Resolve率 -
HumanEval 代码 164题 沙箱 pass@k ~90%
WebArena Web 812题 自托管 成功率 78.2%
OSWorld 桌面 369题 虚拟机 成功率 72.4%
τ-bench 工具 多种 模拟 准确率 -

基准测试的局限性

通用问题

  1. 任务覆盖不全:无法覆盖所有真实场景
  2. 评估偏差:容易过拟合到特定测试模式
  3. 成本问题:运行完整基准测试成本很高
  4. 更新滞后:Agent能力提升快于基准更新
  5. 缺乏过程评估:大多只评估最终结果

改进方向

  • 动态基准:随时间更新的任务池
  • 多维评估:综合评估效率、安全性、成本
  • 真实环境:更接近真实使用场景
  • 人类对齐:关注与人类偏好的一致性

参考文献

  1. Liu, X., et al. "AgentBench: Evaluating LLMs as Agents." ICLR 2024.
  2. Mialon, G., et al. "GAIA: A Benchmark for General AI Assistants." ICLR 2024.
  3. Jimenez, C. E., et al. "SWE-bench: Can Language Models Resolve Real-World GitHub Issues?" ICLR 2024.
  4. Chen, M., et al. "Evaluating Large Language Models Trained on Code." arXiv:2107.03374, 2021.
  5. Zhou, S., et al. "WebArena: A Realistic Web Environment for Building Autonomous Agents." ICLR 2024.
  6. Xie, T., et al. "OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments." NeurIPS 2024.

交叉引用: - 代码智能体 → 代码生成智能体 - Web智能体 → Web智能体 - 评估方法 → 评估方法综述


评论 #