数据集与Benchmark

机器人学习的进步离不开高质量的数据集和标准化的评测基准。然而，与NLP和CV领域相比，机器人数据的获取成本极高、规模极小。本文系统梳理当前主要的机器人数据集、数据格式标准，以及评测Benchmark。

相关笔记：遥操作与数据收集 | VLA模型 | 开源模型汇总

1. 机器人数据的稀缺性

1.1 规模对比

将机器人数据与其他AI领域的数据规模进行对比，可以直观感受差距：

领域	代表数据集	数据规模	获取方式
语言模型	Common Crawl	~15T tokens	网络爬取
图像识别	LAION-5B	50亿图文对	网络爬取
视频理解	HD-VILA	1亿视频clip	网络爬取
自动驾驶	nuScenes	140万帧	车载传感器
机器人操作	Open X-Embodiment	~100万episodes	遥操作/RL
单个实验室	典型规模	1K-100K episodes	遥操作

机器人数据稀缺的根本原因：

\[\text{数据成本} = \frac{\text{硬件成本} + \text{人工成本} + \text{时间成本}}{\text{采集速度}}\]

硬件成本：一台机械臂约5-50万元人民币
人工成本：需要操作人员遥操作（VR/示教器/力反馈）
时间成本：一次操作通常30秒-5分钟
采集速度：一个人一天约采集100-500个episode

1.2 数据稀缺的应对策略

graph TB
    PROBLEM[机器人数据稀缺] --> S1[更高效的采集]
    PROBLEM --> S2[数据增广与生成]
    PROBLEM --> S3[跨来源数据聚合]
    PROBLEM --> S4[从非机器人数据学习]

    S1 --> S1a[更好的遥操作系统<br/>ALOHA, UMI, Bunny-VisionPro]
    S1 --> S1b[自主数据采集<br/>Reset-free RL]

    S2 --> S2a[仿真数据生成<br/>随机化 + Sim2Real]
    S2 --> S2b[图像增广<br/>颜色/纹理/视角变换]
    S2 --> S2c[视频生成模型<br/>UniSim数据增广]

    S3 --> S3a[Open X-Embodiment<br/>多机构数据汇聚]
    S3 --> S3b[DROID<br/>标准化采集流程]

    S4 --> S4a[人类视频学习<br/>R3M, VIP]
    S4 --> S4b[Web数据预训练<br/>RT-2]

2. 主要数据集

2.1 大规模聚合数据集

Open X-Embodiment (Google DeepMind, 2023)

属性	值
规模	100万+ episodes
来源	21个机构的33个子数据集
机器人类型	22种不同形态
任务描述	160,000+种
数据格式	RLDS (TensorFlow Datasets)
存储大小	~1.3TB

包含的子数据集（部分）：

子数据集	episodes	机器人	任务
RT-1 Robot Action	130K	Everyday Robots	桌面操作
Bridge V2	60K	WidowX	厨房操作
Language Table	442K	xArm	语言指导推块
TACO-RL	6K	Franka	操作+RL
BC-Z	26K	Google Robot	多任务
Cable Routing	1K	UR5	布线

DROID (2024)

属性	值
规模	76,000 episodes
来源	13个机构标准化采集
机器人	Franka Emika Panda
采集方式	SpaceMouse遥操作
场景	564个独立场景
标注	自然语言指令 + 操作类型标签

DROID的核心价值：

统一的采集协议保证了数据质量一致性
多场景数据覆盖真实世界的多样性
标准化的数据格式方便模型训练

2.2 特定场景数据集

Bridge V2 (UC Berkeley, 2023)

属性	值
规模	60,096 episodes
机器人	WidowX 250 6DoF
场景	24个厨房/桌面环境
物体	100+种日常物品
控制	末端执行器位姿控制
频率	5Hz

RH20T (Tsinghua, 2023)

属性	值
规模	110,000+ episodes
机器人	多种（Franka, UR5, xArm等）
任务	147种操作任务
特点	包含丰富的多模态标注
传感器	RGB + 深度 + 力/力矩 + 触觉

AgiBot World (AgiBot, 2025)

属性	值
规模	100万+ episodes（目标）
机器人	AgiBot自研平台
场景	工业 + 家庭
特点	中国首个大规模开源机器人数据集
数据质量	自动化质量筛选管线

RoboTurk (Stanford, 2018)

属性	值
规模	2,000+ demonstrations
采集方式	云端众包（浏览器遥操作）
机器人	Sawyer
贡献	首次探索众包式机器人数据采集

3. 数据格式标准

不同数据集使用不同的存储格式，格式转换是实际使用中的常见痛点。

3.1 主要格式对比

格式	使用者	基础	特点	适合场景
RLDS	Open X-Embodiment, Octo	TensorFlow Datasets	标准化episode结构	大规模预训练
LeRobot格式	LeRobot, HuggingFace	Parquet + 视频	体积小，HuggingFace生态	快速原型
HDF5	robomimic, RH20T	HDF5	灵活嵌套结构	研究实验
zarr	Diffusion Policy	Zarr	分块存储，适合并行	大规模训练
rosbag	ROS生态	ROS	原始传感器记录	数据采集

3.2 RLDS格式详解

RLDS（Reinforcement Learning Datasets）是Open X-Embodiment采用的标准格式：

# 一个RLDS episode的典型结构
episode = {
    "steps": [
        {
            "observation": {
                "image": np.array([256, 256, 3]),      # RGB图像
                "wrist_image": np.array([128, 128, 3]), # 腕部相机（可选）
                "state": np.array([7]),                 # 本体感觉状态
            },
            "action": np.array([7]),  # 7DoF: dx,dy,dz,drx,dry,drz,gripper
            "reward": 0.0,
            "is_terminal": False,
            "is_first": True,
            "language_instruction": "pick up the red cup",
        },
        # ... 后续步骤
    ]
}

3.3 LeRobot格式详解

LeRobot采用更现代的数据格式，基于Parquet和视频文件：

dataset/
├── meta/
│   ├── info.json           # 数据集元信息
│   ├── episodes.jsonl      # episode级元数据
│   └── stats.json          # 统计信息（均值、标准差）
├── data/
│   ├── chunk-000/
│   │   ├── episode_000000.parquet  # 结构化数据
│   │   ├── episode_000001.parquet
│   │   └── ...
├── videos/
│   ├── chunk-000/
│   │   ├── observation.images.top/
│   │   │   ├── episode_000000.mp4
│   │   │   └── ...
│   │   └── observation.images.wrist/
│   │       └── ...

LeRobot格式的优势：

视频压缩大幅减少存储空间（相比原始图像帧）
与HuggingFace Hub无缝集成
Parquet格式支持高效的列式查询

3.4 格式转换

在实践中，经常需要在不同格式间转换：

# RLDS → LeRobot（LeRobot提供官方工具）
python lerobot/scripts/push_dataset_to_hub.py \
    --raw-dir /path/to/rlds_dataset \
    --raw-format rlds \
    --repo-id your-hf-username/dataset-name

# HDF5 → LeRobot
python lerobot/scripts/push_dataset_to_hub.py \
    --raw-dir /path/to/hdf5_data \
    --raw-format robomimic \
    --repo-id your-hf-username/dataset-name

4. Benchmark与评测

4.1 仿真Benchmark

SIMPLER (Google DeepMind, 2024)

属性	值
定位	评估真实机器人策略的仿真替代
核心价值	仿真评测分数与真实机器人性能高度相关
任务	基于Google Robot和WidowX的桌面操作
特点	无需真实机器人即可评估VLA性能

LIBERO (UT Austin, 2023)

属性	值
定位	终身学习（Lifelong Learning）Benchmark
平台	MuJoCo仿真
任务套件	5个套件，每套10个任务
评测维度	空间泛化、物体泛化、目标泛化、长时间任务

LIBERO的5个任务套件：

套件	评测维度	难度
LIBERO-Spatial	同物体不同空间关系	低
LIBERO-Object	同任务不同物体	中
LIBERO-Goal	同场景不同目标	中
LIBERO-Long	长序列组合任务	高
LIBERO-100	100个多样化任务	高

RLBench (Imperial College, 2020)

属性	值
平台	CoppeliaSim + PyRep
任务	100+ 精心设计的操作任务
观测	RGB, 深度, 关节状态, 末端位姿
特点	每个任务提供变体用于泛化测试

MetaWorld (Stanford, 2020)

属性	值
平台	MuJoCo
任务	50个桌面操作任务
定位	多任务学习和元学习评测
评测模式	ML1 (单任务), ML10 (10任务), ML45 (45任务), MT10, MT50

ManiSkill (UCSD/Hillbot, 2023)

属性	值
平台	SAPIEN
版本	ManiSkill2, ManiSkill3
任务	20+ 操作任务类别
特点	GPU并行环境，速度极快
物体	使用PartNet-Mobility的可交互物体

4.2 Benchmark对比

graph LR
    subgraph 低保真度-高速度
        MW[MetaWorld<br/>50 tasks<br/>MuJoCo]
        MS[ManiSkill<br/>20+ tasks<br/>SAPIEN/GPU]
    end

    subgraph 中保真度
        LB[LIBERO<br/>5 suites<br/>MuJoCo]
        RB[RLBench<br/>100+ tasks<br/>CoppeliaSim]
    end

    subgraph 高保真度-低速度
        SP[SIMPLER<br/>Real-matched<br/>MuJoCo]
        REAL[真实机器人评测<br/>Gold Standard]
    end

    MW --> LB
    MS --> LB
    LB --> SP
    RB --> SP
    SP --> REAL

4.3 评测指标

指标	定义	适用场景
Success Rate	成功完成任务的比例	最常用的主指标
Partial Success	部分完成（如抓起但未放对）	长序列任务
Generalization Gap	训练分布内外的成功率差	泛化能力评估
Sample Efficiency	达到阈值成功率所需数据量	数据效率评估
Inference Latency	单次推理耗时	实时性评估
Cross-Embodiment Transfer	在新机器人上的零样本/少样本性能	迁移能力评估

5. 数据质量与标注

5.1 数据质量的关键维度

维度	说明	影响
演示质量	操作者的熟练程度	直接影响模仿学习上限
多样性	场景、物体、光照变化	决定泛化能力
标注准确性	语言指令与动作的对应	影响语言条件策略
时间对齐	图像与动作的时间戳同步	对因果建模至关重要
标定精度	相机内外参的准确性	影响3D相关任务

5.2 自动化质量筛选

近期工作开始探索自动化的数据质量评估：

成功率过滤：剔除失败的演示
一致性检查：检测动作和观测的时间一致性
VLM打分：用VLM评估演示的语义正确性
离群值检测：剔除动作分布中的异常值

6. 未来方向

6.1 数据规模的扩展路径

路径	代表	可行性	规模天花板
更多遥操作	DROID, AgiBot World	高	千万级episodes
仿真生成	ManiSkill, Isaac Gym	高	亿级episodes
视频生成模型	UniSim	中	理论上无限
自主探索	Reset-free RL	低（现阶段）	依赖算法进步
互联网视频	RT-2预训练	高	十亿级视频

6.2 标准化趋势

RLDS和LeRobot格式正在成为事实标准
HuggingFace Hub作为统一的数据分发平台
数据集卡片（Datasheet）记录采集条件、偏差、使用限制

6.3 关键挑战

长尾问题：罕见但重要的操作场景数据极少
负样本：大多数数据集只包含成功的演示，缺少失败案例
跨具身标准化：不同机器人的观测和动作空间差异巨大
隐私与安全：包含真实环境的数据可能涉及隐私问题
评测公平性：不同模型使用不同训练数据，横向对比困难

参考文献：

Open X-Embodiment Collaboration, "Open X-Embodiment: Robotic Learning Datasets and RT-X Models", 2023
Khazatsky et al., "DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset", RSS 2024
Walke et al., "BridgeData V2: A Dataset for Robot Learning at Scale", CoRL 2023
Fang et al., "RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in One-Shot", 2023
Li et al., "SIMPLER: Simulated Manipulation Policy Evaluation for Real Robot Setups", 2024
Liu et al., "LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning", NeurIPS 2023
James et al., "RLBench: The Robot Learning Benchmark", RA-L 2020
Yu et al., "Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning", CoRL 2020
Gu et al., "ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills", ICLR 2023