具身智能评测基准

最后更新：2026-04-23

"这个具身大模型比上一代强多少"是个非常难回答的问题。本文梳理主要评测基准的设计逻辑、当前 SOTA 水平、与真实能力的差距。

一句话结论

具身 AI 评测比 LLM 评测难一个数量级——没有"唯一正确答案"，受硬件差异影响大，真机 vs 仿真结果差异显著。2025 年末主要基准都在 50-70% SOTA，长时程 + 零样本新任务仍是短板。

三条关键要点

仿真基准已接近饱和（RT-2 / CALVIN 80-95%）
真机基准仍有巨大提升空间（BEHAVIOR <30% 零样本）
跨形态迁移评测是新趋势 —— 一个模型在多种机器人上的泛化能力

主要评测基准

基准	环境	测什么	头部成绩（2025 末）
RT-2 / CALVIN	仿真 + 真机	桌面操作	80-95%（已见任务）
RLBench	仿真	多任务机械臂	60-80%
BEHAVIOR-1k（Stanford）	仿真	家庭长时程	30-50%
RoboCasa	仿真	厨房场景	40-60%
LIBERO	仿真	任务泛化	70-85%（已见），<30%（零样本）
OSWorld	桌面 Agent	长时程桌面任务	~30-40%
BEHAVIOR（benchmark）	真机	长时程	<20%
METR · HCAST	真实任务	分钟 → 小时级任务	部分小时级开始可行
GAIA	多模态 Agent	综合推理 + 工具	~50%

评测设计的困难

1. 没有"唯一正确答案"

LLM 的 MMLU 有标准答案；具身的"把杯子放到架子上" —— 只要杯子最终在架子上就算对吗？放的姿势要不要管？有没有碰到其他东西要不要扣分？

主流做法：二元成功率 + 多步骤 sub-goals 打分

2. 硬件差异放大

同一个模型： - 在 Franka 机械臂上 80% - 在 UR5 上 60% - 在人形机器人上 40%

所以每个 benchmark 都需要规定硬件。RT-X 跨形态基准是少数允许不同硬件的。

3. Sim2Real gap

仿真 LIBERO 上 85%
同一模型真机上 40%

研究者越来越倾向于真机基准 —— 但真机评测成本高（需要专门 lab）。

4. Long-horizon 挑战

单步操作成功率 95% = 10 步串联只有 60%
benchmark 通常 focus on 1-3 步，不反映真实长时程困难

新趋势

1. 跨形态基准

RT-X Dataset：22 家实验室、22 种机器人
测"一个 checkpoint 在多少种机器人上都能跑"

2. 真实世界任务基准

METR（OpenAI / Anthropic 都在用）测"人类专家做这个任务 X 小时"
Agent 做的时间 / 成功率与人类对比

3. Sim-to-Real 评测

在仿真训练 → 真机测试的 delta
2025 新数据：gap 从 50% 缩到 10-15%

4. 评估者一致性

多个评估 lab 对同一模型打分的方差（Stanford HAI 2025 提出）

用基准率与预期投资框架看

基础率警告：benchmark 数字的提升速度远快于真实能力的提升速度： - 历史上 ImageNet 从 80% 到 95% 用了 8 年 —— 但"识别猫"的真实工业价值在早期就被挖尽 - 具身 benchmark 可能类似 —— 从 70% 到 90% 对 demo 好看，对真实部署意义有限

2026 关键变量

π 发布 benchmark on new test suite：Physical Intelligence 会不会在 long-horizon real-world 上放出数字
BEHAVIOR / LIBERO 新版本：当前饱和，Stanford 可能发更难的版本
跨形态评测标准化：有没有国际标准（ISO 等）
真实工厂部署数据：Optimus / Digit / Figure 在工厂部署的 SLA 数据披露

延伸阅读

本站 · 具身智能技术路线 · Scaling Law 讨论 · RFM 趋势 · 基准率框架