具身智能评测基准
最后更新:2026-04-23
"这个具身大模型比上一代强多少"是个非常难回答的问题。本文梳理主要评测基准的设计逻辑、当前 SOTA 水平、与真实能力的差距。
一句话结论
具身 AI 评测比 LLM 评测难一个数量级——没有"唯一正确答案",受硬件差异影响大,真机 vs 仿真结果差异显著。2025 年末主要基准都在 50-70% SOTA,长时程 + 零样本新任务仍是短板。
三条关键要点
- 仿真基准已接近饱和(RT-2 / CALVIN 80-95%)
- 真机基准仍有巨大提升空间(BEHAVIOR <30% 零样本)
- 跨形态迁移评测是新趋势 —— 一个模型在多种机器人上的泛化能力
主要评测基准
| 基准 | 环境 | 测什么 | 头部成绩(2025 末) |
|---|---|---|---|
| RT-2 / CALVIN | 仿真 + 真机 | 桌面操作 | 80-95%(已见任务) |
| RLBench | 仿真 | 多任务机械臂 | 60-80% |
| BEHAVIOR-1k(Stanford) | 仿真 | 家庭长时程 | 30-50% |
| RoboCasa | 仿真 | 厨房场景 | 40-60% |
| LIBERO | 仿真 | 任务泛化 | 70-85%(已见),<30%(零样本) |
| OSWorld | 桌面 Agent | 长时程桌面任务 | ~30-40% |
| BEHAVIOR(benchmark) | 真机 | 长时程 | <20% |
| METR · HCAST | 真实任务 | 分钟 → 小时级任务 | 部分小时级开始可行 |
| GAIA | 多模态 Agent | 综合推理 + 工具 | ~50% |
评测设计的困难
1. 没有"唯一正确答案"
LLM 的 MMLU 有标准答案;具身的"把杯子放到架子上" —— 只要杯子最终在架子上就算对吗?放的姿势要不要管?有没有碰到其他东西要不要扣分?
主流做法:二元成功率 + 多步骤 sub-goals 打分
2. 硬件差异放大
同一个模型: - 在 Franka 机械臂上 80% - 在 UR5 上 60% - 在人形机器人上 40%
所以每个 benchmark 都需要规定硬件。RT-X 跨形态基准是少数允许不同硬件的。
3. Sim2Real gap
- 仿真 LIBERO 上 85%
- 同一模型真机上 40%
研究者越来越倾向于真机基准 —— 但真机评测成本高(需要专门 lab)。
4. Long-horizon 挑战
- 单步操作成功率 95% = 10 步串联只有 60%
- benchmark 通常 focus on 1-3 步,不反映真实长时程困难
新趋势
1. 跨形态基准
- RT-X Dataset:22 家实验室、22 种机器人
- 测"一个 checkpoint 在多少种机器人上都能跑"
2. 真实世界任务基准
- METR(OpenAI / Anthropic 都在用)测"人类专家做这个任务 X 小时"
- Agent 做的时间 / 成功率与人类对比
3. Sim-to-Real 评测
- 在仿真训练 → 真机测试的 delta
- 2025 新数据:gap 从 50% 缩到 10-15%
4. 评估者一致性
- 多个评估 lab 对同一模型打分的方差(Stanford HAI 2025 提出)
用 基准率与预期投资框架 看
基础率警告:benchmark 数字的提升速度远快于真实能力的提升速度: - 历史上 ImageNet 从 80% 到 95% 用了 8 年 —— 但"识别猫"的真实工业价值在早期就被挖尽 - 具身 benchmark 可能类似 —— 从 70% 到 90% 对 demo 好看,对真实部署意义有限
2026 关键变量
- π 发布 benchmark on new test suite:Physical Intelligence 会不会在 long-horizon real-world 上放出数字
- BEHAVIOR / LIBERO 新版本:当前饱和,Stanford 可能发更难的版本
- 跨形态评测标准化:有没有国际标准(ISO 等)
- 真实工厂部署数据:Optimus / Digit / Figure 在工厂部署的 SLA 数据披露
延伸阅读
- 本站 · 具身智能技术路线 · Scaling Law 讨论 · RFM 趋势 · 基准率框架