机器人学习综述

为什么需要机器人学习

传统机器人依赖人工编程的规则和控制器，在结构化环境（如工厂产线）中表现出色。然而，当机器人面临非结构化环境时——如家庭厨房、户外地形、与人协作——手工编写规则变得不可行。机器人学习（Robot Learning）的核心目标是让机器人从数据和经验中自主获取行为能力。

机器人学习 vs 标准机器学习

机器人学习与标准机器学习存在根本性差异：

维度	标准ML（如CV/NLP）	机器人学习
数据规模	数十亿样本（ImageNet、Common Crawl）	数百~数千条演示
数据获取	爬虫/标注，成本低	遥操作/真机采集，成本极高
反馈延迟	即时损失函数	物理执行后才能评估
安全性	预测错误代价低	错误动作可能损坏机器人或环境
实时性	批处理推理可接受	控制频率 10-1000 Hz
状态空间	独立同分布样本	时序相关、部分可观测
分布偏移	测试集接近训练集	实际部署环境持续变化

这些差异使得机器人学习形成了独特的方法论体系。

机器人学习方法分类

graph TD
    A[机器人学习方法] --> B[模仿学习<br/>Imitation Learning]
    A --> C[强化学习<br/>Reinforcement Learning]
    A --> D[自监督学习<br/>Self-Supervised Learning]
    A --> E[基础模型驱动<br/>Foundation Model Based]

    B --> B1[行为克隆 BC]
    B --> B2[逆强化学习 IRL]
    B --> B3[DAgger]
    B --> B4[扩散策略]

    C --> C1[Model-Free RL<br/>SAC / PPO]
    C --> C2[Model-Based RL<br/>Dreamer / MBPO]
    C --> C3[Sim2Real<br/>域随机化 / 域适应]
    C --> C4[Offline RL<br/>CQL / IQL]

    D --> D1[对比学习<br/>Time-Contrastive]
    D --> D2[预测学习<br/>Forward Model]
    D --> D3[掩码自编码<br/>MAE for Robotics]

    E --> E1[VLA模型<br/>RT-2 / OpenVLA]
    E --> E2[世界模型<br/>UniSim / Genie]
    E --> E3[LLM规划器<br/>SayCan / Code-as-Policy]
    E --> E4[视觉基础模型<br/>DINOv2 / SAM]

    style A fill:#e1f5fe
    style B fill:#fff3e0
    style C fill:#e8f5e9
    style D fill:#f3e5f5
    style E fill:#fce4ec

四大范式详解

1. 模仿学习（Imitation Learning）

核心思想：从专家演示中学习策略 \(\pi_\theta(a|o)\)，无需设计奖励函数。

数学框架：给定专家演示数据集 \(\mathcal{D} = \{(o_i, a_i^*)\}_{i=1}^N\)，目标是最小化策略与专家之间的差异：

\[ \min_\theta \mathbb{E}_{(o, a^*) \sim \mathcal{D}} \left[ \mathcal{L}(\pi_\theta(o), a^*) \right] \]

其中损失函数 \(\mathcal{L}\) 的选择取决于动作空间：

连续动作：MSE 损失 \(\|\pi_\theta(o) - a^*\|^2\)
离散动作：交叉熵损失 \(-\sum_a a^* \log \pi_\theta(a|o)\)
多模态动作：扩散模型损失、混合高斯损失

优势与局限：

优势：直接、高效、无需奖励设计
局限：分布偏移（compounding error）、数据收集成本高

详见模仿学习。

2. 强化学习（Reinforcement Learning）

核心思想：通过试错交互，最大化累计奖励 \(\mathbb{E}\left[\sum_{t=0}^T \gamma^t r(s_t, a_t)\right]\)。

关键挑战：

样本效率：真实机器人中 model-free RL 需要数百万步交互，不切实际
奖励工程：为复杂操作任务设计稠密奖励极其困难
安全约束：探索过程中不能执行危险动作

解决方案：

仿真训练 + Sim2Real 迁移：在仿真中大规模并行训练，通过域随机化迁移到真实环境
Offline RL：从固定数据集学习，无需在线交互
奖励学习：从人类偏好或语言描述中自动推断奖励

详见强化学习在机器人中的应用。

3. 自监督学习（Self-Supervised Learning）

核心思想：从无标注的交互数据中学习有用的表征，降低对人工标注的依赖。

典型方法：

时间对比学习：利用视频的时间结构，将时间上接近的帧映射到相近的表征空间：

\[ \mathcal{L}_{\text{TCN}} = -\log \frac{\exp(\text{sim}(z_t, z_{t+k}) / \tau)}{\sum_{j} \exp(\text{sim}(z_t, z_j) / \tau)} \]

前向预测模型：学习预测动作对状态的影响：

\[ \hat{s}_{t+1} = f_\theta(s_t, a_t), \quad \mathcal{L} = \|s_{t+1} - \hat{s}_{t+1}\|^2 \]

掩码自编码：将 MAE 思想引入机器人，通过重建掩码的感官输入学习表征。

4. 基础模型驱动（Foundation Model Based）

核心思想：利用在海量数据上预训练的大模型（LLM、VLM），为机器人提供语义理解、常识推理和任务规划能力。

关键范式：

VLA 模型（Vision-Language-Action）：端到端地从视觉-语言输入输出机器人动作
- 代表：RT-2、OpenVLA、\(\pi_0\)
LLM 作为规划器：利用 LLM 的推理能力分解任务
- 代表：SayCan、Code-as-Policies、Inner Monologue
世界模型：学习环境动力学的生成模型，用于想象式规划
- 代表：UniSim、Genie、DIAMOND

学习范式的演进路线

timeline
    title 机器人学习关键里程碑
    1989 : Pomerleau ALVINN<br/>首个神经网络端到端驾驶
    2004 : Abbeel 学徒学习<br/>直升机特技飞行
    2013 : DQN<br/>深度RL突破Atari
    2016 : Levine et al.<br/>大规模抓取学习
    2018 : OpenAI Dactyl<br/>灵巧手操控
    2020 : DAgger + BC<br/>工业级模仿学习
    2022 : RT-1 / RT-2<br/>机器人基础模型
    2023 : Diffusion Policy<br/>扩散策略
    2024 : π₀ / OpenVLA<br/>VLA模型浪潮
    2025 : 数据飞轮<br/>Open X-Embodiment

核心挑战

数据瓶颈

机器人学习面临的最大瓶颈是数据。对比：

GPT-4 训练数据：~13 万亿 tokens
ImageNet：~1400 万张图片
Open X-Embodiment：~100 万条机器人轨迹（目前最大）
典型实验室数据集：几百到几千条轨迹

数据稀缺导致了独特的方法学需求：

数据高效的算法：Few-shot 学习、元学习
数据增强：仿真生成、视角变换
数据共享：跨机器人、跨任务的数据复用
合成数据：利用仿真器和生成模型产生训练数据

安全性

机器人在物理世界中执行动作，错误不可逆。安全约束体现在：

训练阶段：探索时避免危险动作（约束RL、安全集合）
部署阶段：实时监测异常，触发安全停止
形式化保证：控制屏障函数（CBF）、李雅普诺夫稳定性

实时性

机器人控制回路要求低延迟推理：

任务类型	控制频率	推理时延要求
四足行走	50-200 Hz	< 5 ms
机械臂操作	10-50 Hz	< 20 ms
灵巧手操作	100-1000 Hz	< 1 ms
导航	5-20 Hz	< 50 ms

这要求模型必须轻量化，或使用蒸馏、量化等技术压缩推理开销。

本章节导航

本节详细覆盖机器人学习的核心方法：

主题	内容概要
模仿学习	BC、DAgger、IRL、GAIL、ACT
强化学习在机器人中的应用	奖励工程、大规模并行训练、非对称Actor-Critic
Sim2Real	域随机化、系统辨识、域适应、Teacher-Student 蒸馏
遥操作与数据收集	ALOHA、UMI、GELLO、数据规模化策略
扩散策略	Diffusion Policy、DP3、Consistency Policy
多任务与泛化	多任务学习、Few-shot 适应、零样本迁移、基准测试

与其他章节的关系

理论基础 \(\leftarrow\) 机器人学基础：运动学、动力学为学习算法提供状态空间和动作空间定义
模型与算法 \(\rightarrow\) 模型与算法：VLA模型、世界模型是当前最前沿的学习范式
仿真平台 \(\leftrightarrow\) 仿真平台：仿真器是机器人RL和Sim2Real的基础设施
硬件 \(\leftarrow\) 硬件平台：传感器和执行器决定了观测空间和动作空间