跳转至

数据集与Benchmark

机器人学习的进步离不开高质量的数据集和标准化的评测基准。然而,与NLP和CV领域相比,机器人数据的获取成本极高、规模极小。本文系统梳理当前主要的机器人数据集、数据格式标准,以及评测Benchmark。

相关笔记:遥操作与数据收集 | VLA模型 | 开源模型汇总


1. 机器人数据的稀缺性

1.1 规模对比

将机器人数据与其他AI领域的数据规模进行对比,可以直观感受差距:

领域 代表数据集 数据规模 获取方式
语言模型 Common Crawl ~15T tokens 网络爬取
图像识别 LAION-5B 50亿图文对 网络爬取
视频理解 HD-VILA 1亿视频clip 网络爬取
自动驾驶 nuScenes 140万帧 车载传感器
机器人操作 Open X-Embodiment ~100万episodes 遥操作/RL
单个实验室 典型规模 1K-100K episodes 遥操作

机器人数据稀缺的根本原因:

\[\text{数据成本} = \frac{\text{硬件成本} + \text{人工成本} + \text{时间成本}}{\text{采集速度}}\]
  • 硬件成本:一台机械臂约5-50万元人民币
  • 人工成本:需要操作人员遥操作(VR/示教器/力反馈)
  • 时间成本:一次操作通常30秒-5分钟
  • 采集速度:一个人一天约采集100-500个episode

1.2 数据稀缺的应对策略

graph TB
    PROBLEM[机器人数据稀缺] --> S1[更高效的采集]
    PROBLEM --> S2[数据增广与生成]
    PROBLEM --> S3[跨来源数据聚合]
    PROBLEM --> S4[从非机器人数据学习]

    S1 --> S1a[更好的遥操作系统<br/>ALOHA, UMI, Bunny-VisionPro]
    S1 --> S1b[自主数据采集<br/>Reset-free RL]

    S2 --> S2a[仿真数据生成<br/>随机化 + Sim2Real]
    S2 --> S2b[图像增广<br/>颜色/纹理/视角变换]
    S2 --> S2c[视频生成模型<br/>UniSim数据增广]

    S3 --> S3a[Open X-Embodiment<br/>多机构数据汇聚]
    S3 --> S3b[DROID<br/>标准化采集流程]

    S4 --> S4a[人类视频学习<br/>R3M, VIP]
    S4 --> S4b[Web数据预训练<br/>RT-2]

2. 主要数据集

2.1 大规模聚合数据集

Open X-Embodiment (Google DeepMind, 2023)

属性
规模 100万+ episodes
来源 21个机构的33个子数据集
机器人类型 22种不同形态
任务描述 160,000+种
数据格式 RLDS (TensorFlow Datasets)
存储大小 ~1.3TB

包含的子数据集(部分)

子数据集 episodes 机器人 任务
RT-1 Robot Action 130K Everyday Robots 桌面操作
Bridge V2 60K WidowX 厨房操作
Language Table 442K xArm 语言指导推块
TACO-RL 6K Franka 操作+RL
BC-Z 26K Google Robot 多任务
Cable Routing 1K UR5 布线

DROID (2024)

属性
规模 76,000 episodes
来源 13个机构标准化采集
机器人 Franka Emika Panda
采集方式 SpaceMouse遥操作
场景 564个独立场景
标注 自然语言指令 + 操作类型标签

DROID的核心价值

  • 统一的采集协议保证了数据质量一致性
  • 多场景数据覆盖真实世界的多样性
  • 标准化的数据格式方便模型训练

2.2 特定场景数据集

Bridge V2 (UC Berkeley, 2023)

属性
规模 60,096 episodes
机器人 WidowX 250 6DoF
场景 24个厨房/桌面环境
物体 100+种日常物品
控制 末端执行器位姿控制
频率 5Hz

RH20T (Tsinghua, 2023)

属性
规模 110,000+ episodes
机器人 多种(Franka, UR5, xArm等)
任务 147种操作任务
特点 包含丰富的多模态标注
传感器 RGB + 深度 + 力/力矩 + 触觉

AgiBot World (AgiBot, 2025)

属性
规模 100万+ episodes(目标)
机器人 AgiBot自研平台
场景 工业 + 家庭
特点 中国首个大规模开源机器人数据集
数据质量 自动化质量筛选管线

RoboTurk (Stanford, 2018)

属性
规模 2,000+ demonstrations
采集方式 云端众包(浏览器遥操作)
机器人 Sawyer
贡献 首次探索众包式机器人数据采集

3. 数据格式标准

不同数据集使用不同的存储格式,格式转换是实际使用中的常见痛点。

3.1 主要格式对比

格式 使用者 基础 特点 适合场景
RLDS Open X-Embodiment, Octo TensorFlow Datasets 标准化episode结构 大规模预训练
LeRobot格式 LeRobot, HuggingFace Parquet + 视频 体积小,HuggingFace生态 快速原型
HDF5 robomimic, RH20T HDF5 灵活嵌套结构 研究实验
zarr Diffusion Policy Zarr 分块存储,适合并行 大规模训练
rosbag ROS生态 ROS 原始传感器记录 数据采集

3.2 RLDS格式详解

RLDS(Reinforcement Learning Datasets)是Open X-Embodiment采用的标准格式:

# 一个RLDS episode的典型结构
episode = {
    "steps": [
        {
            "observation": {
                "image": np.array([256, 256, 3]),      # RGB图像
                "wrist_image": np.array([128, 128, 3]), # 腕部相机(可选)
                "state": np.array([7]),                 # 本体感觉状态
            },
            "action": np.array([7]),  # 7DoF: dx,dy,dz,drx,dry,drz,gripper
            "reward": 0.0,
            "is_terminal": False,
            "is_first": True,
            "language_instruction": "pick up the red cup",
        },
        # ... 后续步骤
    ]
}

3.3 LeRobot格式详解

LeRobot采用更现代的数据格式,基于Parquet和视频文件:

dataset/
├── meta/
│   ├── info.json           # 数据集元信息
│   ├── episodes.jsonl      # episode级元数据
│   └── stats.json          # 统计信息(均值、标准差)
├── data/
│   ├── chunk-000/
│   │   ├── episode_000000.parquet  # 结构化数据
│   │   ├── episode_000001.parquet
│   │   └── ...
├── videos/
│   ├── chunk-000/
│   │   ├── observation.images.top/
│   │   │   ├── episode_000000.mp4
│   │   │   └── ...
│   │   └── observation.images.wrist/
│   │       └── ...

LeRobot格式的优势

  • 视频压缩大幅减少存储空间(相比原始图像帧)
  • 与HuggingFace Hub无缝集成
  • Parquet格式支持高效的列式查询

3.4 格式转换

在实践中,经常需要在不同格式间转换:

# RLDS → LeRobot(LeRobot提供官方工具)
python lerobot/scripts/push_dataset_to_hub.py \
    --raw-dir /path/to/rlds_dataset \
    --raw-format rlds \
    --repo-id your-hf-username/dataset-name

# HDF5 → LeRobot
python lerobot/scripts/push_dataset_to_hub.py \
    --raw-dir /path/to/hdf5_data \
    --raw-format robomimic \
    --repo-id your-hf-username/dataset-name

4. Benchmark与评测

4.1 仿真Benchmark

SIMPLER (Google DeepMind, 2024)

属性
定位 评估真实机器人策略的仿真替代
核心价值 仿真评测分数与真实机器人性能高度相关
任务 基于Google Robot和WidowX的桌面操作
特点 无需真实机器人即可评估VLA性能

LIBERO (UT Austin, 2023)

属性
定位 终身学习(Lifelong Learning)Benchmark
平台 MuJoCo仿真
任务套件 5个套件,每套10个任务
评测维度 空间泛化、物体泛化、目标泛化、长时间任务

LIBERO的5个任务套件

套件 评测维度 难度
LIBERO-Spatial 同物体不同空间关系
LIBERO-Object 同任务不同物体
LIBERO-Goal 同场景不同目标
LIBERO-Long 长序列组合任务
LIBERO-100 100个多样化任务

RLBench (Imperial College, 2020)

属性
平台 CoppeliaSim + PyRep
任务 100+ 精心设计的操作任务
观测 RGB, 深度, 关节状态, 末端位姿
特点 每个任务提供变体用于泛化测试

MetaWorld (Stanford, 2020)

属性
平台 MuJoCo
任务 50个桌面操作任务
定位 多任务学习和元学习评测
评测模式 ML1 (单任务), ML10 (10任务), ML45 (45任务), MT10, MT50

ManiSkill (UCSD/Hillbot, 2023)

属性
平台 SAPIEN
版本 ManiSkill2, ManiSkill3
任务 20+ 操作任务类别
特点 GPU并行环境,速度极快
物体 使用PartNet-Mobility的可交互物体

4.2 Benchmark对比

graph LR
    subgraph 低保真度-高速度
        MW[MetaWorld<br/>50 tasks<br/>MuJoCo]
        MS[ManiSkill<br/>20+ tasks<br/>SAPIEN/GPU]
    end

    subgraph 中保真度
        LB[LIBERO<br/>5 suites<br/>MuJoCo]
        RB[RLBench<br/>100+ tasks<br/>CoppeliaSim]
    end

    subgraph 高保真度-低速度
        SP[SIMPLER<br/>Real-matched<br/>MuJoCo]
        REAL[真实机器人评测<br/>Gold Standard]
    end

    MW --> LB
    MS --> LB
    LB --> SP
    RB --> SP
    SP --> REAL

4.3 评测指标

指标 定义 适用场景
Success Rate 成功完成任务的比例 最常用的主指标
Partial Success 部分完成(如抓起但未放对) 长序列任务
Generalization Gap 训练分布内外的成功率差 泛化能力评估
Sample Efficiency 达到阈值成功率所需数据量 数据效率评估
Inference Latency 单次推理耗时 实时性评估
Cross-Embodiment Transfer 在新机器人上的零样本/少样本性能 迁移能力评估

5. 数据质量与标注

5.1 数据质量的关键维度

维度 说明 影响
演示质量 操作者的熟练程度 直接影响模仿学习上限
多样性 场景、物体、光照变化 决定泛化能力
标注准确性 语言指令与动作的对应 影响语言条件策略
时间对齐 图像与动作的时间戳同步 对因果建模至关重要
标定精度 相机内外参的准确性 影响3D相关任务

5.2 自动化质量筛选

近期工作开始探索自动化的数据质量评估:

  1. 成功率过滤:剔除失败的演示
  2. 一致性检查:检测动作和观测的时间一致性
  3. VLM打分:用VLM评估演示的语义正确性
  4. 离群值检测:剔除动作分布中的异常值

6. 未来方向

6.1 数据规模的扩展路径

路径 代表 可行性 规模天花板
更多遥操作 DROID, AgiBot World 千万级episodes
仿真生成 ManiSkill, Isaac Gym 亿级episodes
视频生成模型 UniSim 理论上无限
自主探索 Reset-free RL 低(现阶段) 依赖算法进步
互联网视频 RT-2预训练 十亿级视频

6.2 标准化趋势

  • RLDS和LeRobot格式正在成为事实标准
  • HuggingFace Hub作为统一的数据分发平台
  • 数据集卡片(Datasheet)记录采集条件、偏差、使用限制

6.3 关键挑战

  1. 长尾问题:罕见但重要的操作场景数据极少
  2. 负样本:大多数数据集只包含成功的演示,缺少失败案例
  3. 跨具身标准化:不同机器人的观测和动作空间差异巨大
  4. 隐私与安全:包含真实环境的数据可能涉及隐私问题
  5. 评测公平性:不同模型使用不同训练数据,横向对比困难

参考文献

  • Open X-Embodiment Collaboration, "Open X-Embodiment: Robotic Learning Datasets and RT-X Models", 2023
  • Khazatsky et al., "DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset", RSS 2024
  • Walke et al., "BridgeData V2: A Dataset for Robot Learning at Scale", CoRL 2023
  • Fang et al., "RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in One-Shot", 2023
  • Li et al., "SIMPLER: Simulated Manipulation Policy Evaluation for Real Robot Setups", 2024
  • Liu et al., "LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning", NeurIPS 2023
  • James et al., "RLBench: The Robot Learning Benchmark", RA-L 2020
  • Yu et al., "Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning", CoRL 2020
  • Gu et al., "ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills", ICLR 2023

评论 #