遥操作与数据收集

概述

数据是机器人学习的燃料。然而，与自然语言处理（万亿 token）和计算机视觉（数十亿图像）不同，机器人操作数据极度稀缺。获取高质量的机器人交互数据需要物理硬件和人类操作员，成本远超从互联网爬取数据。

本文系统介绍机器人数据收集的核心方法——遥操作（Teleoperation），以及数据规模化的前沿策略。

数据瓶颈：规模对比

领域	数据集	规模	获取方式
NLP	Common Crawl	~15T tokens	网页爬虫
CV	LAION-5B	5.85B 图文对	网页爬虫
自动驾驶	nuScenes	1000 场景	车载传感器
机器人	Open X-Embodiment	~1M 轨迹	22 个机器人平台
机器人	DROID	76K 轨迹	遥操作收集
典型实验室	—	50-500 轨迹	手动遥操作

关键洞察：机器人数据比 NLP 数据少 7 个数量级。这不是工程问题，而是根本性瓶颈——每条机器人轨迹都需要物理时间和人力。

数据收集效率估算

假设一个实验室配备 1 台机器人和 1 名操作员：

单条轨迹时长：~30 秒（操作）+ ~15 秒（重置）= 45 秒
每小时轨迹数：~80 条
每天（8 小时）：~640 条
每月（22 天）：~14,000 条

收集 100 万条轨迹需要 ~72 个月（6 年），假设一切顺利。

遥操作方法分类

方法概览

graph TD
    A[遥操作方法] --> B[手持控制器]
    A --> C[主从机械臂]
    A --> D[外骨骼/手套]
    A --> E[低成本方案]

    B --> B1[VR手柄<br/>Meta Quest / HTC Vive]
    B --> B2[Space Mouse<br/>6-DOF输入]
    B --> B3[游戏手柄<br/>低精度但便宜]

    C --> C1[ALOHA<br/>低成本双臂]
    C --> C2[工业主从臂<br/>Sigma.7 / Omega]
    C --> C3[达芬奇手术机器人<br/>高精度]

    D --> D1[数据手套<br/>Cyberglove / MANUS]
    D --> D2[手臂外骨骼<br/>动作捕捉]
    D --> D3[全身动捕<br/>OptiTrack / Xsens]

    E --> E1[UMI<br/>手持夹爪+iPhone]
    E --> E2[GELLO<br/>关节空间遥操作]
    E --> E3[手机APP<br/>简易控制]

    style A fill:#e1f5fe
    style B fill:#fff3e0
    style C fill:#e8f5e9
    style D fill:#f3e5f5
    style E fill:#fce4ec

关键设计维度

维度	选项	权衡
控制空间	任务空间 $(x, y, z, R)$ vs 关节空间 $q$	任务空间直觉但有奇异点
力反馈	有（双向）vs 无（单向）	力反馈提高精度但增加成本
操作延迟	<10ms（本地）vs 50-200ms（远程）	延迟导致操作不稳定
操作模态	位置控制 vs 阻抗控制	阻抗控制更安全

ALOHA 系统

系统架构

ALOHA（A Low-cost Open-source Hardware System for Bimanual Teleoperation, Zhao et al., 2023）是当前最有影响力的低成本双臂遥操作平台。

核心设计：主从同构——主臂和从臂使用相同型号的机械臂（ViperX 300 6DOF），操作员操控主臂，从臂实时模仿。

硬件组成：

组件	规格	单价（美元）
从臂 x2	ViperX 300 6DOF	$5,750 x2
主臂 x2	ViperX 300 6DOF（无负载）	$5,750 x2
夹爪 x2	自定义 1-DOF 夹爪	~$200 x2
相机 x4	Logitech C922	~$70 x4
控制器	笔记本电脑	~$1,500
总计		~$24,480

相比工业遥操作系统（$100K-$1M），ALOHA 将成本降低了 1-2 个数量级。

数据格式

ALOHA 采集的数据包含：

每个时间步 t:
  - 关节位置: q_leader ∈ ℝ^{14} (7 DOF x 2 arms)
  - 关节位置: q_follower ∈ ℝ^{14}
  - 图像: {cam_top, cam_left, cam_right, cam_wrist} 每个 480x640x3
  - 时间戳: t
  - 夹爪状态: {open, closed} x 2

控制频率 50 Hz，每条 30 秒的轨迹产生 ~1500 个时间步。

主从映射

ALOHA 使用关节空间直接映射：

\[ q_{\text{follower}}^{\text{target}}(t) = q_{\text{leader}}(t) \]

由于主从臂同构，关节角直接对应。从臂使用 PD 控制跟踪目标：

\[ \tau = K_p (q_{\text{target}} - q_{\text{actual}}) + K_d (\dot{q}_{\text{target}} - \dot{q}_{\text{actual}}) \]

Mobile ALOHA

扩展到移动操作

Mobile ALOHA（Fu et al., 2024）在 ALOHA 基础上添加了移动底盘，使机器人能在更大空间中执行任务。

新增硬件：

组件	规格
移动底盘	AgileX Tracer（差速驱动）
底盘速度	最高 1.6 m/s
额外相机	底盘前方广角相机
总增加成本	~$8,000

操作模式：操作员通过推动整个遥操作平台来控制底盘运动，同时用手操控主臂。

协同训练

Mobile ALOHA 的关键创新是协同训练（Co-training）：利用大量静态 ALOHA 数据（不含移动）来增强少量移动操作数据的训练。

设 $\mathcal{D}_{\text{mobile}}$ 为移动操作数据（少量），$\mathcal{D}_{\text{static}}$ 为静态操作数据（大量），训练损失为：

\[ \mathcal{L} = \mathbb{E}_{(o,a) \sim \mathcal{D}_{\text{mobile}}} [\ell(\pi_\theta(o), a)] + \alpha \mathbb{E}_{(o,a) \sim \mathcal{D}_{\text{static}}} [\ell(\pi_\theta(o), a)] \]

实验表明，协同训练比仅用移动数据训练的成功率提升 30-50%。

UMI：Universal Manipulation Interface

设计理念

UMI（Chi et al., 2024）的核心思路是去掉机器人——用手持设备直接在真实环境中收集人类操作数据，然后部署到不同的机器人上。

硬件设计

手持采集装置：

3D 打印的平行夹爪外壳
内嵌 GoPro 相机（腕部视角）
iPhone Pro（LiDAR + SLAM 定位）
总成本 < $500

数据采集流程：

操作员手持 UMI 夹爪执行任务
GoPro 录制腕部图像（30 FPS）
iPhone SLAM 提供末端执行器的 SE(3) 位姿轨迹
记录夹爪开合状态

跨实体迁移

UMI 采集的数据格式是末端执行器轨迹 $(p_t, R_t, g_t) \in SE(3) \times \{0, 1\}$，与具体机器人无关。部署时，通过逆运动学将末端轨迹映射到不同机器人：

\[ q_t = \text{IK}(p_t, R_t; \text{robot\_model}) \]

这使得同一批数据可以在 Franka、UR5 等不同机械臂上使用。

相对位姿表示

UMI 使用相对于夹爪的位姿表示，而非全局坐标系：

\[ \Delta T_t = T_t^{-1} \cdot T_{t+1} \]

这种表示对不同的机器人安装位置和朝向不变，进一步增强了泛化能力。

GELLO：关节空间遥操作

设计原理

GELLO（Wu et al., 2023）采用缩比同构设计：构建一个与目标机器人运动学结构相同但尺寸更小的遥操作设备。

关键优势：

关节空间一一对应，无需逆运动学
操作直觉性好——操作员能直接感受每个关节的角度
可定制适配不同机器人

关节映射：

\[ q_{\text{robot}} = \alpha \cdot q_{\text{GELLO}} + \beta \]

其中 $\alpha$ 是缩放因子（补偿尺寸差异），$\beta$ 是偏移量。

成本对比

系统	成本	双臂	力反馈	操作门槛
工业主从臂（Sigma.7）	>$100K	是	是	低
ALOHA	~$24K	是	无	中
UMI	~$500	否	自然	低
GELLO	~$3K	可选	无	中
VR 手柄	~$400	是	振动	高

数据规模化策略

Open X-Embodiment

Open X-Embodiment（Collaboration, 2023）是目前最大的机器人操作数据集联盟项目。

规模：

22 个机器人平台
527 个技能
~1M 轨迹
来自 21 个机构

标准化格式：所有数据统一为 RLDS（Reinforcement Learning Datasets）格式：

{
  "observation": {
    "image": Tensor[H, W, 3],      # RGB 图像
    "state": Tensor[D],             # 本体状态
    "language_instruction": String,  # 语言指令
  },
  "action": Tensor[A],              # 动作向量
  "reward": Float,                   # 奖励（如有）
}

DROID 数据集

DROID（Khazatsky et al., 2024）是一个大规模、多样化的遥操作数据集：

规模：76,000 条轨迹
场景：564 个不同场景
物体：86 个类别
采集方式：Franka + SpaceMouse，分布在多个实验室

数据增强策略

除直接收集外，还有多种数据增强方法：

视角增强：

随机裁剪、颜色抖动、仿射变换
新视角合成（NeRF-based）

动作增强：

轨迹扰动：$a_t' = a_t + \epsilon, \quad \epsilon \sim \mathcal{N}(0, \sigma^2 I)$
时间缩放：改变执行速度
镜像翻转：对称任务的数据翻倍

仿真辅助：

在仿真中渲染真实扫描的物体
用真实背景合成训练图像
物理随机化生成多样化轨迹

数据质量评估

关键指标

指标	定义	目标
成功率	演示中任务完成的比例	>95%
动作平滑度	$\sum_t \\|\ddot{a}_t\\|^2$	越低越好
多样性	轨迹的方差/覆盖度	适度（不能太低也不能太高）
一致性	相同任务不同演示的一致程度	适度

数据过滤

自动过滤低质量演示：

长度异常：时间步数偏离均值 2 个标准差
动作异常：关节速度/加速度超过安全限制
任务失败：最终状态未满足成功条件
操作员标记：操作员主动标记失败的演示

未来方向

自主数据收集

减少对人类操作员的依赖：

RL 探索：用 RL 策略自主收集数据
预测重放：策略执行后，人类只需在关键时刻纠正
主动学习：策略自动识别需要更多数据的区域

互联网数据利用

从 YouTube 等视频中提取操作知识：

手部检测与追踪：提取人手轨迹
物体状态估计：推断物体变化
动作重定向：将人手动作映射到机器人
代表工作：R3M、VIP、Voltron

与其他章节的联系

模仿学习：模仿学习是遥操作数据的主要消费者
扩散策略：扩散策略等先进算法对数据质量和多样性有更高要求
硬件：硬件平台介绍机械臂、传感器等数据采集的物理基础

参考文献

Zhao, T., et al. (2023). Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware. RSS.
Fu, Z., et al. (2024). Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation. CoRL.
Chi, C., et al. (2024). Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots. RSS.
Wu, Y., et al. (2023). GELLO: A General, Low-Cost, and Intuitive Teleoperation Framework. arXiv.
Open X-Embodiment Collaboration (2023). Open X-Embodiment: Robotic Learning Datasets and RT-X Models. arXiv.
Khazatsky, A., et al. (2024). DROID: A Large-Scale In-the-Wild Robot Manipulation Dataset. RSS.

维度	选项	权衡
控制空间	任务空间 \((x, y, z, R)\) vs 关节空间 \(q\)	任务空间直觉但有奇异点
力反馈	有（双向）vs 无（单向）	力反馈提高精度但增加成本
操作延迟	<10ms（本地）vs 50-200ms（远程）	延迟导致操作不稳定
操作模态	位置控制 vs 阻抗控制	阻抗控制更安全