跳转至

遥操作与数据收集

概述

数据是机器人学习的燃料。然而,与自然语言处理(万亿 token)和计算机视觉(数十亿图像)不同,机器人操作数据极度稀缺。获取高质量的机器人交互数据需要物理硬件人类操作员,成本远超从互联网爬取数据。

本文系统介绍机器人数据收集的核心方法——遥操作(Teleoperation),以及数据规模化的前沿策略。


数据瓶颈:规模对比

领域 数据集 规模 获取方式
NLP Common Crawl ~15T tokens 网页爬虫
CV LAION-5B 5.85B 图文对 网页爬虫
自动驾驶 nuScenes 1000 场景 车载传感器
机器人 Open X-Embodiment ~1M 轨迹 22 个机器人平台
机器人 DROID 76K 轨迹 遥操作收集
典型实验室 50-500 轨迹 手动遥操作

关键洞察:机器人数据比 NLP 数据少 7 个数量级。这不是工程问题,而是根本性瓶颈——每条机器人轨迹都需要物理时间和人力。

数据收集效率估算

假设一个实验室配备 1 台机器人和 1 名操作员:

  • 单条轨迹时长:~30 秒(操作)+ ~15 秒(重置)= 45 秒
  • 每小时轨迹数:~80 条
  • 每天(8 小时):~640 条
  • 每月(22 天):~14,000 条

收集 100 万条轨迹需要 ~72 个月(6 年),假设一切顺利。


遥操作方法分类

方法概览

graph TD
    A[遥操作方法] --> B[手持控制器]
    A --> C[主从机械臂]
    A --> D[外骨骼/手套]
    A --> E[低成本方案]

    B --> B1[VR手柄<br/>Meta Quest / HTC Vive]
    B --> B2[Space Mouse<br/>6-DOF输入]
    B --> B3[游戏手柄<br/>低精度但便宜]

    C --> C1[ALOHA<br/>低成本双臂]
    C --> C2[工业主从臂<br/>Sigma.7 / Omega]
    C --> C3[达芬奇手术机器人<br/>高精度]

    D --> D1[数据手套<br/>Cyberglove / MANUS]
    D --> D2[手臂外骨骼<br/>动作捕捉]
    D --> D3[全身动捕<br/>OptiTrack / Xsens]

    E --> E1[UMI<br/>手持夹爪+iPhone]
    E --> E2[GELLO<br/>关节空间遥操作]
    E --> E3[手机APP<br/>简易控制]

    style A fill:#e1f5fe
    style B fill:#fff3e0
    style C fill:#e8f5e9
    style D fill:#f3e5f5
    style E fill:#fce4ec

关键设计维度

维度 选项 权衡
控制空间 任务空间 \((x, y, z, R)\) vs 关节空间 \(q\) 任务空间直觉但有奇异点
力反馈 有(双向)vs 无(单向) 力反馈提高精度但增加成本
操作延迟 <10ms(本地)vs 50-200ms(远程) 延迟导致操作不稳定
操作模态 位置控制 vs 阻抗控制 阻抗控制更安全

ALOHA 系统

系统架构

ALOHA(A Low-cost Open-source Hardware System for Bimanual Teleoperation, Zhao et al., 2023)是当前最有影响力的低成本双臂遥操作平台。

核心设计:主从同构——主臂和从臂使用相同型号的机械臂(ViperX 300 6DOF),操作员操控主臂,从臂实时模仿。

硬件组成

组件 规格 单价(美元)
从臂 x2 ViperX 300 6DOF $5,750 x2
主臂 x2 ViperX 300 6DOF(无负载) $5,750 x2
夹爪 x2 自定义 1-DOF 夹爪 ~$200 x2
相机 x4 Logitech C922 ~$70 x4
控制器 笔记本电脑 ~$1,500
总计 ~$24,480

相比工业遥操作系统(\(100K-\)1M),ALOHA 将成本降低了 1-2 个数量级。

数据格式

ALOHA 采集的数据包含:

每个时间步 t:
  - 关节位置: q_leader ∈ ℝ^{14} (7 DOF x 2 arms)
  - 关节位置: q_follower ∈ ℝ^{14}
  - 图像: {cam_top, cam_left, cam_right, cam_wrist} 每个 480x640x3
  - 时间戳: t
  - 夹爪状态: {open, closed} x 2

控制频率 50 Hz,每条 30 秒的轨迹产生 ~1500 个时间步。

主从映射

ALOHA 使用关节空间直接映射:

\[ q_{\text{follower}}^{\text{target}}(t) = q_{\text{leader}}(t) \]

由于主从臂同构,关节角直接对应。从臂使用 PD 控制跟踪目标:

\[ \tau = K_p (q_{\text{target}} - q_{\text{actual}}) + K_d (\dot{q}_{\text{target}} - \dot{q}_{\text{actual}}) \]

Mobile ALOHA

扩展到移动操作

Mobile ALOHA(Fu et al., 2024)在 ALOHA 基础上添加了移动底盘,使机器人能在更大空间中执行任务。

新增硬件

组件 规格
移动底盘 AgileX Tracer(差速驱动)
底盘速度 最高 1.6 m/s
额外相机 底盘前方广角相机
总增加成本 ~$8,000

操作模式:操作员通过推动整个遥操作平台来控制底盘运动,同时用手操控主臂。

协同训练

Mobile ALOHA 的关键创新是协同训练(Co-training):利用大量静态 ALOHA 数据(不含移动)来增强少量移动操作数据的训练。

\(\mathcal{D}_{\text{mobile}}\) 为移动操作数据(少量),\(\mathcal{D}_{\text{static}}\) 为静态操作数据(大量),训练损失为:

\[ \mathcal{L} = \mathbb{E}_{(o,a) \sim \mathcal{D}_{\text{mobile}}} [\ell(\pi_\theta(o), a)] + \alpha \mathbb{E}_{(o,a) \sim \mathcal{D}_{\text{static}}} [\ell(\pi_\theta(o), a)] \]

实验表明,协同训练比仅用移动数据训练的成功率提升 30-50%。


UMI:Universal Manipulation Interface

设计理念

UMI(Chi et al., 2024)的核心思路是去掉机器人——用手持设备直接在真实环境中收集人类操作数据,然后部署到不同的机器人上。

硬件设计

手持采集装置

  • 3D 打印的平行夹爪外壳
  • 内嵌 GoPro 相机(腕部视角)
  • iPhone Pro(LiDAR + SLAM 定位)
  • 总成本 < $500

数据采集流程

  1. 操作员手持 UMI 夹爪执行任务
  2. GoPro 录制腕部图像(30 FPS)
  3. iPhone SLAM 提供末端执行器的 SE(3) 位姿轨迹
  4. 记录夹爪开合状态

跨实体迁移

UMI 采集的数据格式是末端执行器轨迹 \((p_t, R_t, g_t) \in SE(3) \times \{0, 1\}\),与具体机器人无关。部署时,通过逆运动学将末端轨迹映射到不同机器人:

\[ q_t = \text{IK}(p_t, R_t; \text{robot\_model}) \]

这使得同一批数据可以在 Franka、UR5 等不同机械臂上使用。

相对位姿表示

UMI 使用相对于夹爪的位姿表示,而非全局坐标系:

\[ \Delta T_t = T_t^{-1} \cdot T_{t+1} \]

这种表示对不同的机器人安装位置和朝向不变,进一步增强了泛化能力。


GELLO:关节空间遥操作

设计原理

GELLO(Wu et al., 2023)采用缩比同构设计:构建一个与目标机器人运动学结构相同但尺寸更小的遥操作设备。

关键优势

  • 关节空间一一对应,无需逆运动学
  • 操作直觉性好——操作员能直接感受每个关节的角度
  • 可定制适配不同机器人

关节映射

\[ q_{\text{robot}} = \alpha \cdot q_{\text{GELLO}} + \beta \]

其中 \(\alpha\) 是缩放因子(补偿尺寸差异),\(\beta\) 是偏移量。

成本对比

系统 成本 双臂 力反馈 操作门槛
工业主从臂(Sigma.7) >$100K
ALOHA ~$24K
UMI ~$500 自然
GELLO ~$3K 可选
VR 手柄 ~$400 振动

数据规模化策略

Open X-Embodiment

Open X-Embodiment(Collaboration, 2023)是目前最大的机器人操作数据集联盟项目。

规模

  • 22 个机器人平台
  • 527 个技能
  • ~1M 轨迹
  • 来自 21 个机构

标准化格式:所有数据统一为 RLDS(Reinforcement Learning Datasets)格式:

{
  "observation": {
    "image": Tensor[H, W, 3],      # RGB 图像
    "state": Tensor[D],             # 本体状态
    "language_instruction": String,  # 语言指令
  },
  "action": Tensor[A],              # 动作向量
  "reward": Float,                   # 奖励(如有)
}

DROID 数据集

DROID(Khazatsky et al., 2024)是一个大规模、多样化的遥操作数据集:

  • 规模:76,000 条轨迹
  • 场景:564 个不同场景
  • 物体:86 个类别
  • 采集方式:Franka + SpaceMouse,分布在多个实验室

数据增强策略

除直接收集外,还有多种数据增强方法:

视角增强

  • 随机裁剪、颜色抖动、仿射变换
  • 新视角合成(NeRF-based)

动作增强

  • 轨迹扰动:\(a_t' = a_t + \epsilon, \quad \epsilon \sim \mathcal{N}(0, \sigma^2 I)\)
  • 时间缩放:改变执行速度
  • 镜像翻转:对称任务的数据翻倍

仿真辅助

  • 在仿真中渲染真实扫描的物体
  • 用真实背景合成训练图像
  • 物理随机化生成多样化轨迹

数据质量评估

关键指标

指标 定义 目标
成功率 演示中任务完成的比例 >95%
动作平滑度 \(\sum_t \|\ddot{a}_t\|^2\) 越低越好
多样性 轨迹的方差/覆盖度 适度(不能太低也不能太高)
一致性 相同任务不同演示的一致程度 适度

数据过滤

自动过滤低质量演示:

  1. 长度异常:时间步数偏离均值 2 个标准差
  2. 动作异常:关节速度/加速度超过安全限制
  3. 任务失败:最终状态未满足成功条件
  4. 操作员标记:操作员主动标记失败的演示

未来方向

自主数据收集

减少对人类操作员的依赖:

  1. RL 探索:用 RL 策略自主收集数据
  2. 预测重放:策略执行后,人类只需在关键时刻纠正
  3. 主动学习:策略自动识别需要更多数据的区域

互联网数据利用

从 YouTube 等视频中提取操作知识:

  1. 手部检测与追踪:提取人手轨迹
  2. 物体状态估计:推断物体变化
  3. 动作重定向:将人手动作映射到机器人
  4. 代表工作:R3M、VIP、Voltron

与其他章节的联系

  • 模仿学习模仿学习 是遥操作数据的主要消费者
  • 扩散策略扩散策略 等先进算法对数据质量和多样性有更高要求
  • 硬件硬件平台 介绍机械臂、传感器等数据采集的物理基础

参考文献

  1. Zhao, T., et al. (2023). Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware. RSS.
  2. Fu, Z., et al. (2024). Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation. CoRL.
  3. Chi, C., et al. (2024). Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots. RSS.
  4. Wu, Y., et al. (2023). GELLO: A General, Low-Cost, and Intuitive Teleoperation Framework. arXiv.
  5. Open X-Embodiment Collaboration (2023). Open X-Embodiment: Robotic Learning Datasets and RT-X Models. arXiv.
  6. Khazatsky, A., et al. (2024). DROID: A Large-Scale In-the-Wild Robot Manipulation Dataset. RSS.

评论 #