遥操作与数据收集
概述
数据是机器人学习的燃料。然而,与自然语言处理(万亿 token)和计算机视觉(数十亿图像)不同,机器人操作数据极度稀缺。获取高质量的机器人交互数据需要物理硬件和人类操作员,成本远超从互联网爬取数据。
本文系统介绍机器人数据收集的核心方法——遥操作(Teleoperation),以及数据规模化的前沿策略。
数据瓶颈:规模对比
| 领域 | 数据集 | 规模 | 获取方式 |
|---|---|---|---|
| NLP | Common Crawl | ~15T tokens | 网页爬虫 |
| CV | LAION-5B | 5.85B 图文对 | 网页爬虫 |
| 自动驾驶 | nuScenes | 1000 场景 | 车载传感器 |
| 机器人 | Open X-Embodiment | ~1M 轨迹 | 22 个机器人平台 |
| 机器人 | DROID | 76K 轨迹 | 遥操作收集 |
| 典型实验室 | — | 50-500 轨迹 | 手动遥操作 |
关键洞察:机器人数据比 NLP 数据少 7 个数量级。这不是工程问题,而是根本性瓶颈——每条机器人轨迹都需要物理时间和人力。
数据收集效率估算
假设一个实验室配备 1 台机器人和 1 名操作员:
- 单条轨迹时长:~30 秒(操作)+ ~15 秒(重置)= 45 秒
- 每小时轨迹数:~80 条
- 每天(8 小时):~640 条
- 每月(22 天):~14,000 条
收集 100 万条轨迹需要 ~72 个月(6 年),假设一切顺利。
遥操作方法分类
方法概览
graph TD
A[遥操作方法] --> B[手持控制器]
A --> C[主从机械臂]
A --> D[外骨骼/手套]
A --> E[低成本方案]
B --> B1[VR手柄<br/>Meta Quest / HTC Vive]
B --> B2[Space Mouse<br/>6-DOF输入]
B --> B3[游戏手柄<br/>低精度但便宜]
C --> C1[ALOHA<br/>低成本双臂]
C --> C2[工业主从臂<br/>Sigma.7 / Omega]
C --> C3[达芬奇手术机器人<br/>高精度]
D --> D1[数据手套<br/>Cyberglove / MANUS]
D --> D2[手臂外骨骼<br/>动作捕捉]
D --> D3[全身动捕<br/>OptiTrack / Xsens]
E --> E1[UMI<br/>手持夹爪+iPhone]
E --> E2[GELLO<br/>关节空间遥操作]
E --> E3[手机APP<br/>简易控制]
style A fill:#e1f5fe
style B fill:#fff3e0
style C fill:#e8f5e9
style D fill:#f3e5f5
style E fill:#fce4ec
关键设计维度
| 维度 | 选项 | 权衡 |
|---|---|---|
| 控制空间 | 任务空间 \((x, y, z, R)\) vs 关节空间 \(q\) | 任务空间直觉但有奇异点 |
| 力反馈 | 有(双向)vs 无(单向) | 力反馈提高精度但增加成本 |
| 操作延迟 | <10ms(本地)vs 50-200ms(远程) | 延迟导致操作不稳定 |
| 操作模态 | 位置控制 vs 阻抗控制 | 阻抗控制更安全 |
ALOHA 系统
系统架构
ALOHA(A Low-cost Open-source Hardware System for Bimanual Teleoperation, Zhao et al., 2023)是当前最有影响力的低成本双臂遥操作平台。
核心设计:主从同构——主臂和从臂使用相同型号的机械臂(ViperX 300 6DOF),操作员操控主臂,从臂实时模仿。
硬件组成:
| 组件 | 规格 | 单价(美元) |
|---|---|---|
| 从臂 x2 | ViperX 300 6DOF | $5,750 x2 |
| 主臂 x2 | ViperX 300 6DOF(无负载) | $5,750 x2 |
| 夹爪 x2 | 自定义 1-DOF 夹爪 | ~$200 x2 |
| 相机 x4 | Logitech C922 | ~$70 x4 |
| 控制器 | 笔记本电脑 | ~$1,500 |
| 总计 | ~$24,480 |
相比工业遥操作系统(\(100K-\)1M),ALOHA 将成本降低了 1-2 个数量级。
数据格式
ALOHA 采集的数据包含:
每个时间步 t:
- 关节位置: q_leader ∈ ℝ^{14} (7 DOF x 2 arms)
- 关节位置: q_follower ∈ ℝ^{14}
- 图像: {cam_top, cam_left, cam_right, cam_wrist} 每个 480x640x3
- 时间戳: t
- 夹爪状态: {open, closed} x 2
控制频率 50 Hz,每条 30 秒的轨迹产生 ~1500 个时间步。
主从映射
ALOHA 使用关节空间直接映射:
由于主从臂同构,关节角直接对应。从臂使用 PD 控制跟踪目标:
Mobile ALOHA
扩展到移动操作
Mobile ALOHA(Fu et al., 2024)在 ALOHA 基础上添加了移动底盘,使机器人能在更大空间中执行任务。
新增硬件:
| 组件 | 规格 |
|---|---|
| 移动底盘 | AgileX Tracer(差速驱动) |
| 底盘速度 | 最高 1.6 m/s |
| 额外相机 | 底盘前方广角相机 |
| 总增加成本 | ~$8,000 |
操作模式:操作员通过推动整个遥操作平台来控制底盘运动,同时用手操控主臂。
协同训练
Mobile ALOHA 的关键创新是协同训练(Co-training):利用大量静态 ALOHA 数据(不含移动)来增强少量移动操作数据的训练。
设 \(\mathcal{D}_{\text{mobile}}\) 为移动操作数据(少量),\(\mathcal{D}_{\text{static}}\) 为静态操作数据(大量),训练损失为:
实验表明,协同训练比仅用移动数据训练的成功率提升 30-50%。
UMI:Universal Manipulation Interface
设计理念
UMI(Chi et al., 2024)的核心思路是去掉机器人——用手持设备直接在真实环境中收集人类操作数据,然后部署到不同的机器人上。
硬件设计
手持采集装置:
- 3D 打印的平行夹爪外壳
- 内嵌 GoPro 相机(腕部视角)
- iPhone Pro(LiDAR + SLAM 定位)
- 总成本 < $500
数据采集流程:
- 操作员手持 UMI 夹爪执行任务
- GoPro 录制腕部图像(30 FPS)
- iPhone SLAM 提供末端执行器的 SE(3) 位姿轨迹
- 记录夹爪开合状态
跨实体迁移
UMI 采集的数据格式是末端执行器轨迹 \((p_t, R_t, g_t) \in SE(3) \times \{0, 1\}\),与具体机器人无关。部署时,通过逆运动学将末端轨迹映射到不同机器人:
这使得同一批数据可以在 Franka、UR5 等不同机械臂上使用。
相对位姿表示
UMI 使用相对于夹爪的位姿表示,而非全局坐标系:
这种表示对不同的机器人安装位置和朝向不变,进一步增强了泛化能力。
GELLO:关节空间遥操作
设计原理
GELLO(Wu et al., 2023)采用缩比同构设计:构建一个与目标机器人运动学结构相同但尺寸更小的遥操作设备。
关键优势:
- 关节空间一一对应,无需逆运动学
- 操作直觉性好——操作员能直接感受每个关节的角度
- 可定制适配不同机器人
关节映射:
其中 \(\alpha\) 是缩放因子(补偿尺寸差异),\(\beta\) 是偏移量。
成本对比
| 系统 | 成本 | 双臂 | 力反馈 | 操作门槛 |
|---|---|---|---|---|
| 工业主从臂(Sigma.7) | >$100K | 是 | 是 | 低 |
| ALOHA | ~$24K | 是 | 无 | 中 |
| UMI | ~$500 | 否 | 自然 | 低 |
| GELLO | ~$3K | 可选 | 无 | 中 |
| VR 手柄 | ~$400 | 是 | 振动 | 高 |
数据规模化策略
Open X-Embodiment
Open X-Embodiment(Collaboration, 2023)是目前最大的机器人操作数据集联盟项目。
规模:
- 22 个机器人平台
- 527 个技能
- ~1M 轨迹
- 来自 21 个机构
标准化格式:所有数据统一为 RLDS(Reinforcement Learning Datasets)格式:
{
"observation": {
"image": Tensor[H, W, 3], # RGB 图像
"state": Tensor[D], # 本体状态
"language_instruction": String, # 语言指令
},
"action": Tensor[A], # 动作向量
"reward": Float, # 奖励(如有)
}
DROID 数据集
DROID(Khazatsky et al., 2024)是一个大规模、多样化的遥操作数据集:
- 规模:76,000 条轨迹
- 场景:564 个不同场景
- 物体:86 个类别
- 采集方式:Franka + SpaceMouse,分布在多个实验室
数据增强策略
除直接收集外,还有多种数据增强方法:
视角增强:
- 随机裁剪、颜色抖动、仿射变换
- 新视角合成(NeRF-based)
动作增强:
- 轨迹扰动:\(a_t' = a_t + \epsilon, \quad \epsilon \sim \mathcal{N}(0, \sigma^2 I)\)
- 时间缩放:改变执行速度
- 镜像翻转:对称任务的数据翻倍
仿真辅助:
- 在仿真中渲染真实扫描的物体
- 用真实背景合成训练图像
- 物理随机化生成多样化轨迹
数据质量评估
关键指标
| 指标 | 定义 | 目标 |
|---|---|---|
| 成功率 | 演示中任务完成的比例 | >95% |
| 动作平滑度 | \(\sum_t \|\ddot{a}_t\|^2\) | 越低越好 |
| 多样性 | 轨迹的方差/覆盖度 | 适度(不能太低也不能太高) |
| 一致性 | 相同任务不同演示的一致程度 | 适度 |
数据过滤
自动过滤低质量演示:
- 长度异常:时间步数偏离均值 2 个标准差
- 动作异常:关节速度/加速度超过安全限制
- 任务失败:最终状态未满足成功条件
- 操作员标记:操作员主动标记失败的演示
未来方向
自主数据收集
减少对人类操作员的依赖:
- RL 探索:用 RL 策略自主收集数据
- 预测重放:策略执行后,人类只需在关键时刻纠正
- 主动学习:策略自动识别需要更多数据的区域
互联网数据利用
从 YouTube 等视频中提取操作知识:
- 手部检测与追踪:提取人手轨迹
- 物体状态估计:推断物体变化
- 动作重定向:将人手动作映射到机器人
- 代表工作:R3M、VIP、Voltron
与其他章节的联系
参考文献
- Zhao, T., et al. (2023). Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware. RSS.
- Fu, Z., et al. (2024). Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation. CoRL.
- Chi, C., et al. (2024). Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots. RSS.
- Wu, Y., et al. (2023). GELLO: A General, Low-Cost, and Intuitive Teleoperation Framework. arXiv.
- Open X-Embodiment Collaboration (2023). Open X-Embodiment: Robotic Learning Datasets and RT-X Models. arXiv.
- Khazatsky, A., et al. (2024). DROID: A Large-Scale In-the-Wild Robot Manipulation Dataset. RSS.