跳转至

机器人学习综述

为什么需要机器人学习

传统机器人依赖人工编程的规则和控制器,在结构化环境(如工厂产线)中表现出色。然而,当机器人面临非结构化环境时——如家庭厨房、户外地形、与人协作——手工编写规则变得不可行。机器人学习(Robot Learning)的核心目标是让机器人从数据和经验中自主获取行为能力

机器人学习 vs 标准机器学习

机器人学习与标准机器学习存在根本性差异:

维度 标准ML(如CV/NLP) 机器人学习
数据规模 数十亿样本(ImageNet、Common Crawl) 数百~数千条演示
数据获取 爬虫/标注,成本低 遥操作/真机采集,成本极高
反馈延迟 即时损失函数 物理执行后才能评估
安全性 预测错误代价低 错误动作可能损坏机器人或环境
实时性 批处理推理可接受 控制频率 10-1000 Hz
状态空间 独立同分布样本 时序相关、部分可观测
分布偏移 测试集接近训练集 实际部署环境持续变化

这些差异使得机器人学习形成了独特的方法论体系。


机器人学习方法分类

graph TD
    A[机器人学习方法] --> B[模仿学习<br/>Imitation Learning]
    A --> C[强化学习<br/>Reinforcement Learning]
    A --> D[自监督学习<br/>Self-Supervised Learning]
    A --> E[基础模型驱动<br/>Foundation Model Based]

    B --> B1[行为克隆 BC]
    B --> B2[逆强化学习 IRL]
    B --> B3[DAgger]
    B --> B4[扩散策略]

    C --> C1[Model-Free RL<br/>SAC / PPO]
    C --> C2[Model-Based RL<br/>Dreamer / MBPO]
    C --> C3[Sim2Real<br/>域随机化 / 域适应]
    C --> C4[Offline RL<br/>CQL / IQL]

    D --> D1[对比学习<br/>Time-Contrastive]
    D --> D2[预测学习<br/>Forward Model]
    D --> D3[掩码自编码<br/>MAE for Robotics]

    E --> E1[VLA模型<br/>RT-2 / OpenVLA]
    E --> E2[世界模型<br/>UniSim / Genie]
    E --> E3[LLM规划器<br/>SayCan / Code-as-Policy]
    E --> E4[视觉基础模型<br/>DINOv2 / SAM]

    style A fill:#e1f5fe
    style B fill:#fff3e0
    style C fill:#e8f5e9
    style D fill:#f3e5f5
    style E fill:#fce4ec

四大范式详解

1. 模仿学习(Imitation Learning)

核心思想:从专家演示中学习策略 \(\pi_\theta(a|o)\),无需设计奖励函数。

数学框架:给定专家演示数据集 \(\mathcal{D} = \{(o_i, a_i^*)\}_{i=1}^N\),目标是最小化策略与专家之间的差异:

\[ \min_\theta \mathbb{E}_{(o, a^*) \sim \mathcal{D}} \left[ \mathcal{L}(\pi_\theta(o), a^*) \right] \]

其中损失函数 \(\mathcal{L}\) 的选择取决于动作空间:

  • 连续动作:MSE 损失 \(\|\pi_\theta(o) - a^*\|^2\)
  • 离散动作:交叉熵损失 \(-\sum_a a^* \log \pi_\theta(a|o)\)
  • 多模态动作:扩散模型损失、混合高斯损失

优势与局限

  • 优势:直接、高效、无需奖励设计
  • 局限:分布偏移(compounding error)、数据收集成本高

详见 模仿学习

2. 强化学习(Reinforcement Learning)

核心思想:通过试错交互,最大化累计奖励 \(\mathbb{E}\left[\sum_{t=0}^T \gamma^t r(s_t, a_t)\right]\)

关键挑战

  • 样本效率:真实机器人中 model-free RL 需要数百万步交互,不切实际
  • 奖励工程:为复杂操作任务设计稠密奖励极其困难
  • 安全约束:探索过程中不能执行危险动作

解决方案

  • 仿真训练 + Sim2Real 迁移:在仿真中大规模并行训练,通过域随机化迁移到真实环境
  • Offline RL:从固定数据集学习,无需在线交互
  • 奖励学习:从人类偏好或语言描述中自动推断奖励

详见 强化学习在机器人中的应用

3. 自监督学习(Self-Supervised Learning)

核心思想:从无标注的交互数据中学习有用的表征,降低对人工标注的依赖。

典型方法

时间对比学习:利用视频的时间结构,将时间上接近的帧映射到相近的表征空间:

\[ \mathcal{L}_{\text{TCN}} = -\log \frac{\exp(\text{sim}(z_t, z_{t+k}) / \tau)}{\sum_{j} \exp(\text{sim}(z_t, z_j) / \tau)} \]

前向预测模型:学习预测动作对状态的影响:

\[ \hat{s}_{t+1} = f_\theta(s_t, a_t), \quad \mathcal{L} = \|s_{t+1} - \hat{s}_{t+1}\|^2 \]

掩码自编码:将 MAE 思想引入机器人,通过重建掩码的感官输入学习表征。

4. 基础模型驱动(Foundation Model Based)

核心思想:利用在海量数据上预训练的大模型(LLM、VLM),为机器人提供语义理解、常识推理和任务规划能力。

关键范式

  • VLA 模型(Vision-Language-Action):端到端地从视觉-语言输入输出机器人动作
    • 代表:RT-2、OpenVLA、\(\pi_0\)
  • LLM 作为规划器:利用 LLM 的推理能力分解任务
    • 代表:SayCan、Code-as-Policies、Inner Monologue
  • 世界模型:学习环境动力学的生成模型,用于想象式规划
    • 代表:UniSim、Genie、DIAMOND

学习范式的演进路线

timeline
    title 机器人学习关键里程碑
    1989 : Pomerleau ALVINN<br/>首个神经网络端到端驾驶
    2004 : Abbeel 学徒学习<br/>直升机特技飞行
    2013 : DQN<br/>深度RL突破Atari
    2016 : Levine et al.<br/>大规模抓取学习
    2018 : OpenAI Dactyl<br/>灵巧手操控
    2020 : DAgger + BC<br/>工业级模仿学习
    2022 : RT-1 / RT-2<br/>机器人基础模型
    2023 : Diffusion Policy<br/>扩散策略
    2024 : π₀ / OpenVLA<br/>VLA模型浪潮
    2025 : 数据飞轮<br/>Open X-Embodiment

核心挑战

数据瓶颈

机器人学习面临的最大瓶颈是数据。对比:

  • GPT-4 训练数据:~13 万亿 tokens
  • ImageNet:~1400 万张图片
  • Open X-Embodiment:~100 万条机器人轨迹(目前最大)
  • 典型实验室数据集:几百到几千条轨迹

数据稀缺导致了独特的方法学需求:

  1. 数据高效的算法:Few-shot 学习、元学习
  2. 数据增强:仿真生成、视角变换
  3. 数据共享:跨机器人、跨任务的数据复用
  4. 合成数据:利用仿真器和生成模型产生训练数据

安全性

机器人在物理世界中执行动作,错误不可逆。安全约束体现在:

  • 训练阶段:探索时避免危险动作(约束RL、安全集合)
  • 部署阶段:实时监测异常,触发安全停止
  • 形式化保证:控制屏障函数(CBF)、李雅普诺夫稳定性

实时性

机器人控制回路要求低延迟推理:

任务类型 控制频率 推理时延要求
四足行走 50-200 Hz < 5 ms
机械臂操作 10-50 Hz < 20 ms
灵巧手操作 100-1000 Hz < 1 ms
导航 5-20 Hz < 50 ms

这要求模型必须轻量化,或使用蒸馏、量化等技术压缩推理开销。


本章节导航

本节详细覆盖机器人学习的核心方法:

主题 内容概要
模仿学习 BC、DAgger、IRL、GAIL、ACT
强化学习在机器人中的应用 奖励工程、大规模并行训练、非对称Actor-Critic
Sim2Real 域随机化、系统辨识、域适应、Teacher-Student 蒸馏
遥操作与数据收集 ALOHA、UMI、GELLO、数据规模化策略
扩散策略 Diffusion Policy、DP3、Consistency Policy
多任务与泛化 多任务学习、Few-shot 适应、零样本迁移、基准测试

与其他章节的关系

  • 理论基础 \(\leftarrow\) 机器人学基础:运动学、动力学为学习算法提供状态空间和动作空间定义
  • 模型与算法 \(\rightarrow\) 模型与算法:VLA模型、世界模型是当前最前沿的学习范式
  • 仿真平台 \(\leftrightarrow\) 仿真平台:仿真器是机器人RL和Sim2Real的基础设施
  • 硬件 \(\leftarrow\) 硬件平台:传感器和执行器决定了观测空间和动作空间

推荐阅读

  1. Kroemer, O., Niekum, S., & Konidaris, G. (2021). A Review of Robot Learning for Manipulation. Annual Review of Control, Robotics, and Autonomous Systems.
  2. Zhu, H., et al. (2023). A Survey on Robot Learning in the Era of Large Models. arXiv:2311.14379.
  3. Fang, H., et al. (2024). Robot Learning: From Imitation to Foundation Models. Annual Review of AI.

评论 #