跳转至

具身智能评测基准

最后更新:2026-04-23

"这个具身大模型比上一代强多少"是个非常难回答的问题。本文梳理主要评测基准的设计逻辑、当前 SOTA 水平、与真实能力的差距。

一句话结论

具身 AI 评测比 LLM 评测难一个数量级——没有"唯一正确答案",受硬件差异影响大,真机 vs 仿真结果差异显著。2025 年末主要基准都在 50-70% SOTA长时程 + 零样本新任务仍是短板。

三条关键要点

  1. 仿真基准已接近饱和(RT-2 / CALVIN 80-95%)
  2. 真机基准仍有巨大提升空间(BEHAVIOR <30% 零样本)
  3. 跨形态迁移评测是新趋势 —— 一个模型在多种机器人上的泛化能力

主要评测基准

基准 环境 测什么 头部成绩(2025 末)
RT-2 / CALVIN 仿真 + 真机 桌面操作 80-95%(已见任务)
RLBench 仿真 多任务机械臂 60-80%
BEHAVIOR-1k(Stanford) 仿真 家庭长时程 30-50%
RoboCasa 仿真 厨房场景 40-60%
LIBERO 仿真 任务泛化 70-85%(已见),<30%(零样本)
OSWorld 桌面 Agent 长时程桌面任务 ~30-40%
BEHAVIOR(benchmark) 真机 长时程 <20%
METR · HCAST 真实任务 分钟 → 小时级任务 部分小时级开始可行
GAIA 多模态 Agent 综合推理 + 工具 ~50%

评测设计的困难

1. 没有"唯一正确答案"

LLM 的 MMLU 有标准答案;具身的"把杯子放到架子上" —— 只要杯子最终在架子上就算对吗?放的姿势要不要管?有没有碰到其他东西要不要扣分?

主流做法:二元成功率 + 多步骤 sub-goals 打分

2. 硬件差异放大

同一个模型: - 在 Franka 机械臂上 80% - 在 UR5 上 60% - 在人形机器人上 40%

所以每个 benchmark 都需要规定硬件。RT-X 跨形态基准是少数允许不同硬件的。

3. Sim2Real gap

  • 仿真 LIBERO 上 85%
  • 同一模型真机上 40%

研究者越来越倾向于真机基准 —— 但真机评测成本高(需要专门 lab)。

4. Long-horizon 挑战

  • 单步操作成功率 95% = 10 步串联只有 60%
  • benchmark 通常 focus on 1-3 步,不反映真实长时程困难

新趋势

1. 跨形态基准

  • RT-X Dataset:22 家实验室、22 种机器人
  • 测"一个 checkpoint 在多少种机器人上都能跑"

2. 真实世界任务基准

  • METR(OpenAI / Anthropic 都在用)测"人类专家做这个任务 X 小时"
  • Agent 做的时间 / 成功率与人类对比

3. Sim-to-Real 评测

  • 在仿真训练 → 真机测试的 delta
  • 2025 新数据:gap 从 50% 缩到 10-15%

4. 评估者一致性

  • 多个评估 lab 对同一模型打分的方差(Stanford HAI 2025 提出)

基准率与预期投资框架

基础率警告:benchmark 数字的提升速度远快于真实能力的提升速度: - 历史上 ImageNet 从 80% 到 95% 用了 8 年 —— 但"识别猫"的真实工业价值在早期就被挖尽 - 具身 benchmark 可能类似 —— 从 70% 到 90% 对 demo 好看,对真实部署意义有限

2026 关键变量

  1. π 发布 benchmark on new test suite:Physical Intelligence 会不会在 long-horizon real-world 上放出数字
  2. BEHAVIOR / LIBERO 新版本:当前饱和,Stanford 可能发更难的版本
  3. 跨形态评测标准化:有没有国际标准(ISO 等)
  4. 真实工厂部署数据:Optimus / Digit / Figure 在工厂部署的 SLA 数据披露

延伸阅读