数据集与Benchmark
机器人学习的进步离不开高质量的数据集和标准化的评测基准。然而,与NLP和CV领域相比,机器人数据的获取成本极高、规模极小。本文系统梳理当前主要的机器人数据集、数据格式标准,以及评测Benchmark。
相关笔记:遥操作与数据收集 | VLA模型 | 开源模型汇总
1. 机器人数据的稀缺性
1.1 规模对比
将机器人数据与其他AI领域的数据规模进行对比,可以直观感受差距:
| 领域 |
代表数据集 |
数据规模 |
获取方式 |
| 语言模型 |
Common Crawl |
~15T tokens |
网络爬取 |
| 图像识别 |
LAION-5B |
50亿图文对 |
网络爬取 |
| 视频理解 |
HD-VILA |
1亿视频clip |
网络爬取 |
| 自动驾驶 |
nuScenes |
140万帧 |
车载传感器 |
| 机器人操作 |
Open X-Embodiment |
~100万episodes |
遥操作/RL |
| 单个实验室 |
典型规模 |
1K-100K episodes |
遥操作 |
机器人数据稀缺的根本原因:
\[\text{数据成本} = \frac{\text{硬件成本} + \text{人工成本} + \text{时间成本}}{\text{采集速度}}\]
- 硬件成本:一台机械臂约5-50万元人民币
- 人工成本:需要操作人员遥操作(VR/示教器/力反馈)
- 时间成本:一次操作通常30秒-5分钟
- 采集速度:一个人一天约采集100-500个episode
1.2 数据稀缺的应对策略
graph TB
PROBLEM[机器人数据稀缺] --> S1[更高效的采集]
PROBLEM --> S2[数据增广与生成]
PROBLEM --> S3[跨来源数据聚合]
PROBLEM --> S4[从非机器人数据学习]
S1 --> S1a[更好的遥操作系统<br/>ALOHA, UMI, Bunny-VisionPro]
S1 --> S1b[自主数据采集<br/>Reset-free RL]
S2 --> S2a[仿真数据生成<br/>随机化 + Sim2Real]
S2 --> S2b[图像增广<br/>颜色/纹理/视角变换]
S2 --> S2c[视频生成模型<br/>UniSim数据增广]
S3 --> S3a[Open X-Embodiment<br/>多机构数据汇聚]
S3 --> S3b[DROID<br/>标准化采集流程]
S4 --> S4a[人类视频学习<br/>R3M, VIP]
S4 --> S4b[Web数据预训练<br/>RT-2]
2. 主要数据集
2.1 大规模聚合数据集
Open X-Embodiment (Google DeepMind, 2023)
| 属性 |
值 |
| 规模 |
100万+ episodes |
| 来源 |
21个机构的33个子数据集 |
| 机器人类型 |
22种不同形态 |
| 任务描述 |
160,000+种 |
| 数据格式 |
RLDS (TensorFlow Datasets) |
| 存储大小 |
~1.3TB |
包含的子数据集(部分):
| 子数据集 |
episodes |
机器人 |
任务 |
| RT-1 Robot Action |
130K |
Everyday Robots |
桌面操作 |
| Bridge V2 |
60K |
WidowX |
厨房操作 |
| Language Table |
442K |
xArm |
语言指导推块 |
| TACO-RL |
6K |
Franka |
操作+RL |
| BC-Z |
26K |
Google Robot |
多任务 |
| Cable Routing |
1K |
UR5 |
布线 |
DROID (2024)
| 属性 |
值 |
| 规模 |
76,000 episodes |
| 来源 |
13个机构标准化采集 |
| 机器人 |
Franka Emika Panda |
| 采集方式 |
SpaceMouse遥操作 |
| 场景 |
564个独立场景 |
| 标注 |
自然语言指令 + 操作类型标签 |
DROID的核心价值:
- 统一的采集协议保证了数据质量一致性
- 多场景数据覆盖真实世界的多样性
- 标准化的数据格式方便模型训练
2.2 特定场景数据集
Bridge V2 (UC Berkeley, 2023)
| 属性 |
值 |
| 规模 |
60,096 episodes |
| 机器人 |
WidowX 250 6DoF |
| 场景 |
24个厨房/桌面环境 |
| 物体 |
100+种日常物品 |
| 控制 |
末端执行器位姿控制 |
| 频率 |
5Hz |
RH20T (Tsinghua, 2023)
| 属性 |
值 |
| 规模 |
110,000+ episodes |
| 机器人 |
多种(Franka, UR5, xArm等) |
| 任务 |
147种操作任务 |
| 特点 |
包含丰富的多模态标注 |
| 传感器 |
RGB + 深度 + 力/力矩 + 触觉 |
AgiBot World (AgiBot, 2025)
| 属性 |
值 |
| 规模 |
100万+ episodes(目标) |
| 机器人 |
AgiBot自研平台 |
| 场景 |
工业 + 家庭 |
| 特点 |
中国首个大规模开源机器人数据集 |
| 数据质量 |
自动化质量筛选管线 |
RoboTurk (Stanford, 2018)
| 属性 |
值 |
| 规模 |
2,000+ demonstrations |
| 采集方式 |
云端众包(浏览器遥操作) |
| 机器人 |
Sawyer |
| 贡献 |
首次探索众包式机器人数据采集 |
3. 数据格式标准
不同数据集使用不同的存储格式,格式转换是实际使用中的常见痛点。
3.1 主要格式对比
| 格式 |
使用者 |
基础 |
特点 |
适合场景 |
| RLDS |
Open X-Embodiment, Octo |
TensorFlow Datasets |
标准化episode结构 |
大规模预训练 |
| LeRobot格式 |
LeRobot, HuggingFace |
Parquet + 视频 |
体积小,HuggingFace生态 |
快速原型 |
| HDF5 |
robomimic, RH20T |
HDF5 |
灵活嵌套结构 |
研究实验 |
| zarr |
Diffusion Policy |
Zarr |
分块存储,适合并行 |
大规模训练 |
| rosbag |
ROS生态 |
ROS |
原始传感器记录 |
数据采集 |
3.2 RLDS格式详解
RLDS(Reinforcement Learning Datasets)是Open X-Embodiment采用的标准格式:
# 一个RLDS episode的典型结构
episode = {
"steps": [
{
"observation": {
"image": np.array([256, 256, 3]), # RGB图像
"wrist_image": np.array([128, 128, 3]), # 腕部相机(可选)
"state": np.array([7]), # 本体感觉状态
},
"action": np.array([7]), # 7DoF: dx,dy,dz,drx,dry,drz,gripper
"reward": 0.0,
"is_terminal": False,
"is_first": True,
"language_instruction": "pick up the red cup",
},
# ... 后续步骤
]
}
3.3 LeRobot格式详解
LeRobot采用更现代的数据格式,基于Parquet和视频文件:
dataset/
├── meta/
│ ├── info.json # 数据集元信息
│ ├── episodes.jsonl # episode级元数据
│ └── stats.json # 统计信息(均值、标准差)
├── data/
│ ├── chunk-000/
│ │ ├── episode_000000.parquet # 结构化数据
│ │ ├── episode_000001.parquet
│ │ └── ...
├── videos/
│ ├── chunk-000/
│ │ ├── observation.images.top/
│ │ │ ├── episode_000000.mp4
│ │ │ └── ...
│ │ └── observation.images.wrist/
│ │ └── ...
LeRobot格式的优势:
- 视频压缩大幅减少存储空间(相比原始图像帧)
- 与HuggingFace Hub无缝集成
- Parquet格式支持高效的列式查询
3.4 格式转换
在实践中,经常需要在不同格式间转换:
# RLDS → LeRobot(LeRobot提供官方工具)
python lerobot/scripts/push_dataset_to_hub.py \
--raw-dir /path/to/rlds_dataset \
--raw-format rlds \
--repo-id your-hf-username/dataset-name
# HDF5 → LeRobot
python lerobot/scripts/push_dataset_to_hub.py \
--raw-dir /path/to/hdf5_data \
--raw-format robomimic \
--repo-id your-hf-username/dataset-name
4. Benchmark与评测
4.1 仿真Benchmark
SIMPLER (Google DeepMind, 2024)
| 属性 |
值 |
| 定位 |
评估真实机器人策略的仿真替代 |
| 核心价值 |
仿真评测分数与真实机器人性能高度相关 |
| 任务 |
基于Google Robot和WidowX的桌面操作 |
| 特点 |
无需真实机器人即可评估VLA性能 |
LIBERO (UT Austin, 2023)
| 属性 |
值 |
| 定位 |
终身学习(Lifelong Learning)Benchmark |
| 平台 |
MuJoCo仿真 |
| 任务套件 |
5个套件,每套10个任务 |
| 评测维度 |
空间泛化、物体泛化、目标泛化、长时间任务 |
LIBERO的5个任务套件:
| 套件 |
评测维度 |
难度 |
| LIBERO-Spatial |
同物体不同空间关系 |
低 |
| LIBERO-Object |
同任务不同物体 |
中 |
| LIBERO-Goal |
同场景不同目标 |
中 |
| LIBERO-Long |
长序列组合任务 |
高 |
| LIBERO-100 |
100个多样化任务 |
高 |
RLBench (Imperial College, 2020)
| 属性 |
值 |
| 平台 |
CoppeliaSim + PyRep |
| 任务 |
100+ 精心设计的操作任务 |
| 观测 |
RGB, 深度, 关节状态, 末端位姿 |
| 特点 |
每个任务提供变体用于泛化测试 |
| 属性 |
值 |
| 平台 |
MuJoCo |
| 任务 |
50个桌面操作任务 |
| 定位 |
多任务学习和元学习评测 |
| 评测模式 |
ML1 (单任务), ML10 (10任务), ML45 (45任务), MT10, MT50 |
ManiSkill (UCSD/Hillbot, 2023)
| 属性 |
值 |
| 平台 |
SAPIEN |
| 版本 |
ManiSkill2, ManiSkill3 |
| 任务 |
20+ 操作任务类别 |
| 特点 |
GPU并行环境,速度极快 |
| 物体 |
使用PartNet-Mobility的可交互物体 |
4.2 Benchmark对比
graph LR
subgraph 低保真度-高速度
MW[MetaWorld<br/>50 tasks<br/>MuJoCo]
MS[ManiSkill<br/>20+ tasks<br/>SAPIEN/GPU]
end
subgraph 中保真度
LB[LIBERO<br/>5 suites<br/>MuJoCo]
RB[RLBench<br/>100+ tasks<br/>CoppeliaSim]
end
subgraph 高保真度-低速度
SP[SIMPLER<br/>Real-matched<br/>MuJoCo]
REAL[真实机器人评测<br/>Gold Standard]
end
MW --> LB
MS --> LB
LB --> SP
RB --> SP
SP --> REAL
4.3 评测指标
| 指标 |
定义 |
适用场景 |
| Success Rate |
成功完成任务的比例 |
最常用的主指标 |
| Partial Success |
部分完成(如抓起但未放对) |
长序列任务 |
| Generalization Gap |
训练分布内外的成功率差 |
泛化能力评估 |
| Sample Efficiency |
达到阈值成功率所需数据量 |
数据效率评估 |
| Inference Latency |
单次推理耗时 |
实时性评估 |
| Cross-Embodiment Transfer |
在新机器人上的零样本/少样本性能 |
迁移能力评估 |
5. 数据质量与标注
5.1 数据质量的关键维度
| 维度 |
说明 |
影响 |
| 演示质量 |
操作者的熟练程度 |
直接影响模仿学习上限 |
| 多样性 |
场景、物体、光照变化 |
决定泛化能力 |
| 标注准确性 |
语言指令与动作的对应 |
影响语言条件策略 |
| 时间对齐 |
图像与动作的时间戳同步 |
对因果建模至关重要 |
| 标定精度 |
相机内外参的准确性 |
影响3D相关任务 |
5.2 自动化质量筛选
近期工作开始探索自动化的数据质量评估:
- 成功率过滤:剔除失败的演示
- 一致性检查:检测动作和观测的时间一致性
- VLM打分:用VLM评估演示的语义正确性
- 离群值检测:剔除动作分布中的异常值
6. 未来方向
6.1 数据规模的扩展路径
| 路径 |
代表 |
可行性 |
规模天花板 |
| 更多遥操作 |
DROID, AgiBot World |
高 |
千万级episodes |
| 仿真生成 |
ManiSkill, Isaac Gym |
高 |
亿级episodes |
| 视频生成模型 |
UniSim |
中 |
理论上无限 |
| 自主探索 |
Reset-free RL |
低(现阶段) |
依赖算法进步 |
| 互联网视频 |
RT-2预训练 |
高 |
十亿级视频 |
6.2 标准化趋势
- RLDS和LeRobot格式正在成为事实标准
- HuggingFace Hub作为统一的数据分发平台
- 数据集卡片(Datasheet)记录采集条件、偏差、使用限制
6.3 关键挑战
- 长尾问题:罕见但重要的操作场景数据极少
- 负样本:大多数数据集只包含成功的演示,缺少失败案例
- 跨具身标准化:不同机器人的观测和动作空间差异巨大
- 隐私与安全:包含真实环境的数据可能涉及隐私问题
- 评测公平性:不同模型使用不同训练数据,横向对比困难
参考文献:
- Open X-Embodiment Collaboration, "Open X-Embodiment: Robotic Learning Datasets and RT-X Models", 2023
- Khazatsky et al., "DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset", RSS 2024
- Walke et al., "BridgeData V2: A Dataset for Robot Learning at Scale", CoRL 2023
- Fang et al., "RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in One-Shot", 2023
- Li et al., "SIMPLER: Simulated Manipulation Policy Evaluation for Real Robot Setups", 2024
- Liu et al., "LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning", NeurIPS 2023
- James et al., "RLBench: The Robot Learning Benchmark", RA-L 2020
- Yu et al., "Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning", CoRL 2020
- Gu et al., "ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills", ICLR 2023