机器人学习综述
为什么需要机器人学习
传统机器人依赖人工编程的规则和控制器,在结构化环境(如工厂产线)中表现出色。然而,当机器人面临非结构化环境时——如家庭厨房、户外地形、与人协作——手工编写规则变得不可行。机器人学习(Robot Learning)的核心目标是让机器人从数据和经验中自主获取行为能力。
机器人学习 vs 标准机器学习
机器人学习与标准机器学习存在根本性差异:
| 维度 | 标准ML(如CV/NLP) | 机器人学习 |
|---|---|---|
| 数据规模 | 数十亿样本(ImageNet、Common Crawl) | 数百~数千条演示 |
| 数据获取 | 爬虫/标注,成本低 | 遥操作/真机采集,成本极高 |
| 反馈延迟 | 即时损失函数 | 物理执行后才能评估 |
| 安全性 | 预测错误代价低 | 错误动作可能损坏机器人或环境 |
| 实时性 | 批处理推理可接受 | 控制频率 10-1000 Hz |
| 状态空间 | 独立同分布样本 | 时序相关、部分可观测 |
| 分布偏移 | 测试集接近训练集 | 实际部署环境持续变化 |
这些差异使得机器人学习形成了独特的方法论体系。
机器人学习方法分类
graph TD
A[机器人学习方法] --> B[模仿学习<br/>Imitation Learning]
A --> C[强化学习<br/>Reinforcement Learning]
A --> D[自监督学习<br/>Self-Supervised Learning]
A --> E[基础模型驱动<br/>Foundation Model Based]
B --> B1[行为克隆 BC]
B --> B2[逆强化学习 IRL]
B --> B3[DAgger]
B --> B4[扩散策略]
C --> C1[Model-Free RL<br/>SAC / PPO]
C --> C2[Model-Based RL<br/>Dreamer / MBPO]
C --> C3[Sim2Real<br/>域随机化 / 域适应]
C --> C4[Offline RL<br/>CQL / IQL]
D --> D1[对比学习<br/>Time-Contrastive]
D --> D2[预测学习<br/>Forward Model]
D --> D3[掩码自编码<br/>MAE for Robotics]
E --> E1[VLA模型<br/>RT-2 / OpenVLA]
E --> E2[世界模型<br/>UniSim / Genie]
E --> E3[LLM规划器<br/>SayCan / Code-as-Policy]
E --> E4[视觉基础模型<br/>DINOv2 / SAM]
style A fill:#e1f5fe
style B fill:#fff3e0
style C fill:#e8f5e9
style D fill:#f3e5f5
style E fill:#fce4ec
四大范式详解
1. 模仿学习(Imitation Learning)
核心思想:从专家演示中学习策略 \(\pi_\theta(a|o)\),无需设计奖励函数。
数学框架:给定专家演示数据集 \(\mathcal{D} = \{(o_i, a_i^*)\}_{i=1}^N\),目标是最小化策略与专家之间的差异:
其中损失函数 \(\mathcal{L}\) 的选择取决于动作空间:
- 连续动作:MSE 损失 \(\|\pi_\theta(o) - a^*\|^2\)
- 离散动作:交叉熵损失 \(-\sum_a a^* \log \pi_\theta(a|o)\)
- 多模态动作:扩散模型损失、混合高斯损失
优势与局限:
- 优势:直接、高效、无需奖励设计
- 局限:分布偏移(compounding error)、数据收集成本高
详见 模仿学习。
2. 强化学习(Reinforcement Learning)
核心思想:通过试错交互,最大化累计奖励 \(\mathbb{E}\left[\sum_{t=0}^T \gamma^t r(s_t, a_t)\right]\)。
关键挑战:
- 样本效率:真实机器人中 model-free RL 需要数百万步交互,不切实际
- 奖励工程:为复杂操作任务设计稠密奖励极其困难
- 安全约束:探索过程中不能执行危险动作
解决方案:
- 仿真训练 + Sim2Real 迁移:在仿真中大规模并行训练,通过域随机化迁移到真实环境
- Offline RL:从固定数据集学习,无需在线交互
- 奖励学习:从人类偏好或语言描述中自动推断奖励
详见 强化学习在机器人中的应用。
3. 自监督学习(Self-Supervised Learning)
核心思想:从无标注的交互数据中学习有用的表征,降低对人工标注的依赖。
典型方法:
时间对比学习:利用视频的时间结构,将时间上接近的帧映射到相近的表征空间:
前向预测模型:学习预测动作对状态的影响:
掩码自编码:将 MAE 思想引入机器人,通过重建掩码的感官输入学习表征。
4. 基础模型驱动(Foundation Model Based)
核心思想:利用在海量数据上预训练的大模型(LLM、VLM),为机器人提供语义理解、常识推理和任务规划能力。
关键范式:
- VLA 模型(Vision-Language-Action):端到端地从视觉-语言输入输出机器人动作
- 代表:RT-2、OpenVLA、\(\pi_0\)
- LLM 作为规划器:利用 LLM 的推理能力分解任务
- 代表:SayCan、Code-as-Policies、Inner Monologue
- 世界模型:学习环境动力学的生成模型,用于想象式规划
- 代表:UniSim、Genie、DIAMOND
学习范式的演进路线
timeline
title 机器人学习关键里程碑
1989 : Pomerleau ALVINN<br/>首个神经网络端到端驾驶
2004 : Abbeel 学徒学习<br/>直升机特技飞行
2013 : DQN<br/>深度RL突破Atari
2016 : Levine et al.<br/>大规模抓取学习
2018 : OpenAI Dactyl<br/>灵巧手操控
2020 : DAgger + BC<br/>工业级模仿学习
2022 : RT-1 / RT-2<br/>机器人基础模型
2023 : Diffusion Policy<br/>扩散策略
2024 : π₀ / OpenVLA<br/>VLA模型浪潮
2025 : 数据飞轮<br/>Open X-Embodiment
核心挑战
数据瓶颈
机器人学习面临的最大瓶颈是数据。对比:
- GPT-4 训练数据:~13 万亿 tokens
- ImageNet:~1400 万张图片
- Open X-Embodiment:~100 万条机器人轨迹(目前最大)
- 典型实验室数据集:几百到几千条轨迹
数据稀缺导致了独特的方法学需求:
- 数据高效的算法:Few-shot 学习、元学习
- 数据增强:仿真生成、视角变换
- 数据共享:跨机器人、跨任务的数据复用
- 合成数据:利用仿真器和生成模型产生训练数据
安全性
机器人在物理世界中执行动作,错误不可逆。安全约束体现在:
- 训练阶段:探索时避免危险动作(约束RL、安全集合)
- 部署阶段:实时监测异常,触发安全停止
- 形式化保证:控制屏障函数(CBF)、李雅普诺夫稳定性
实时性
机器人控制回路要求低延迟推理:
| 任务类型 | 控制频率 | 推理时延要求 |
|---|---|---|
| 四足行走 | 50-200 Hz | < 5 ms |
| 机械臂操作 | 10-50 Hz | < 20 ms |
| 灵巧手操作 | 100-1000 Hz | < 1 ms |
| 导航 | 5-20 Hz | < 50 ms |
这要求模型必须轻量化,或使用蒸馏、量化等技术压缩推理开销。
本章节导航
本节详细覆盖机器人学习的核心方法:
| 主题 | 内容概要 |
|---|---|
| 模仿学习 | BC、DAgger、IRL、GAIL、ACT |
| 强化学习在机器人中的应用 | 奖励工程、大规模并行训练、非对称Actor-Critic |
| Sim2Real | 域随机化、系统辨识、域适应、Teacher-Student 蒸馏 |
| 遥操作与数据收集 | ALOHA、UMI、GELLO、数据规模化策略 |
| 扩散策略 | Diffusion Policy、DP3、Consistency Policy |
| 多任务与泛化 | 多任务学习、Few-shot 适应、零样本迁移、基准测试 |
与其他章节的关系
- 理论基础 \(\leftarrow\) 机器人学基础:运动学、动力学为学习算法提供状态空间和动作空间定义
- 模型与算法 \(\rightarrow\) 模型与算法:VLA模型、世界模型是当前最前沿的学习范式
- 仿真平台 \(\leftrightarrow\) 仿真平台:仿真器是机器人RL和Sim2Real的基础设施
- 硬件 \(\leftarrow\) 硬件平台:传感器和执行器决定了观测空间和动作空间
推荐阅读
- Kroemer, O., Niekum, S., & Konidaris, G. (2021). A Review of Robot Learning for Manipulation. Annual Review of Control, Robotics, and Autonomous Systems.
- Zhu, H., et al. (2023). A Survey on Robot Learning in the Era of Large Models. arXiv:2311.14379.
- Fang, H., et al. (2024). Robot Learning: From Imitation to Foundation Models. Annual Review of AI.