多任务与泛化
概述
当前机器人学习的主要局限之一是泛化能力不足:在实验室中训练的策略通常只能完成特定物体、特定环境下的特定任务。面对真实世界的无限多样性——不同的物体形状、材质、布局、光照、任务描述——单任务策略远远不够。
本文讨论机器人学习中实现多任务能力和泛化的核心方法与挑战。
泛化的维度
机器人泛化需要在多个维度上同时应对变化:
| 泛化维度 | 变化来源 | 难度 |
|---|---|---|
| 物体内泛化 | 同类物体的不同实例(不同杯子) | 中 |
| 物体间泛化 | 不同类别物体(杯子 vs 碗) | 高 |
| 场景泛化 | 不同桌面布局、背景 | 中 |
| 光照泛化 | 不同光源方向、强度 | 低-中 |
| 任务泛化 | 不同技能(抓取 vs 放置 vs 倒水) | 高 |
| 指令泛化 | 不同语言表述描述同一任务 | 中 |
| 机器人泛化 | 不同机器人形态和传感器 | 极高 |
组合爆炸
设有 \(N_o\) 种物体、\(N_e\) 种环境、\(N_t\) 种任务,则需要泛化的组合数为 \(O(N_o \times N_e \times N_t)\)。即使每个维度只有 100 种变化,总组合已达 \(10^6\)——远超人工逐一收集数据的能力。
多任务学习
问题公式
多任务学习的目标是训练单一策略 \(\pi_\theta\) 同时完成 \(M\) 个任务 \(\{\mathcal{T}_1, \ldots, \mathcal{T}_M\}\)。每个任务由奖励函数 \(r_m\) 或演示数据集 \(\mathcal{D}_m\) 定义。
目标函数:
其中 \(c_m\) 是任务条件(如语言指令、one-hot 编码、目标图像),\(w_m\) 是任务权重。
任务条件化方式
语言条件(最常用):
语言指令通过预训练语言模型(如 CLIP、T5)编码为向量 \(e_l \in \mathbb{R}^d\)。
目标图像条件:
提供任务完成后的目标图像,避免语言歧义。
任务嵌入条件:
学习可训练的任务嵌入向量。
共享表征
多任务学习的核心挑战是负迁移(Negative Transfer):不同任务可能需要相互冲突的特征,共享参数反而降低每个任务的性能。
共享编码器 + 任务特定头:
渐进网络:为每个新任务添加列,通过侧向连接复用已有知识。
Soft Modular Networks:学习每个任务的模块选择权重 \(w_{m,i}\):
任务平衡
不同任务的难度和数据量差异大,直接均匀采样会导致简单任务过拟合、困难任务欠拟合。
动态权重调整(Uncertainty Weighting, Kendall et al., 2018):
其中 \(\sigma_m\) 是可学习的任务不确定性参数。不确定性高的任务自动获得较低权重。
Few-Shot 适应
问题设定
给定预训练策略 \(\pi_\theta\) 和新任务的少量演示 \(\mathcal{D}_{\text{new}} = \{(o_i, a_i)\}_{i=1}^K\)(\(K = 1\text{-}10\)),快速适应到新任务。
微调方法
全参数微调:
风险:\(K\) 很小时容易过拟合。
LoRA 适应:仅训练低秩增量矩阵:
参数量减少为原来的 \(\frac{2r}{d+d}\) 倍,有效防止过拟合。
Adapter 微调:在冻结的预训练网络中插入小型可训练模块。
元学习(Meta-Learning)
MAML(Model-Agnostic Meta-Learning):学习一个好的初始化 \(\theta_0\),使得从该初始化出发,几步梯度下降即可适应新任务。
外层优化:
内层适应(对新任务 \(m\)):
其中 support set 是少量演示,query set 用于评估适应效果。
In-Context Learning
受 LLM 的 in-context learning 启发,将少量演示作为上下文直接输入策略网络,无需梯度更新:
代表工作:In-Context Robot Transformer(Zitkovich et al., 2023)。
零样本迁移
基础模型驱动的零样本能力
利用在海量数据上预训练的基础模型,实现无需目标任务数据的直接迁移。
视觉-语言-动作模型(VLA):
VLA 模型(如 RT-2、OpenVLA)通过在大规模机器人数据和互联网数据上联合训练,获得了一定的零样本泛化能力:
- 新物体(训练中未见过的物体类别)
- 新指令(训练中未见过的语言表述)
- 一定程度的新技能组合
语义迁移路径:
graph LR
A[互联网知识<br/>十亿级图文数据] --> B[视觉-语义理解<br/>物体识别/空间关系/常识]
B --> C[VLA模型<br/>RT-2 / OpenVLA]
D[机器人数据<br/>百万级轨迹] --> C
C --> E[零样本执行<br/>新物体/新指令]
style A fill:#e1f5fe
style B fill:#fff3e0
style C fill:#e8f5e9
style D fill:#e1f5fe
style E fill:#fce4ec
语言引导的技能组合
通过 LLM 的规划能力,将新任务分解为已有技能的组合:
-
任务描述:"整理桌子" → LLM 分解为:
- 找到所有物品
- 逐一放入收纳盒
- 擦拭桌面
-
技能库匹配:将子任务映射到已训练的原子技能
-
顺序执行:按序调用各原子策略
代表工作:SayCan(Ahn et al., 2022)将 LLM 的语义知识与机器人的可行性评估结合:
基准测试
SIMPLER
SIMPLER(Li et al., 2024)是一个基于仿真的机器人策略评估基准:
- 设计目标:提供与真实世界高度相关的仿真评估
- 任务:Google Robot 和 WidowX 平台的操作任务
- 评估协议:标准化的成功率、泛化性指标
LIBERO
LIBERO(Liu et al., 2023)是一个多任务机器人学习基准:
- 130 个任务:涵盖 5 个任务套件
- 泛化测试:
- LIBERO-Spatial:空间关系泛化
- LIBERO-Object:物体泛化
- LIBERO-Goal:目标泛化
- LIBERO-Long:长时序任务
典型结果:
| 方法 | LIBERO-Spatial | LIBERO-Object | LIBERO-Goal | LIBERO-Long |
|---|---|---|---|---|
| BC (ResNet) | 78.5 | 82.1 | 68.3 | 42.1 |
| BC (ViT) | 81.2 | 85.4 | 73.1 | 48.7 |
| Diffusion Policy | 86.3 | 89.1 | 80.2 | 56.4 |
| ACT | 84.1 | 87.2 | 77.8 | 52.3 |
RLBench
RLBench(James et al., 2020)是一个大规模仿真基准:
- 100+ 任务:从简单到复杂
- 多模态输入:RGB、深度、点云
- 语言条件:每个任务配有自然语言描述
开放问题
长时序任务
当前方法在短时序任务(10-50 步)上表现良好,但长时序任务(100+ 步)仍然困难:
错误累积:在 \(T\) 步任务中,若每步成功率为 \(p\),则整体成功率为 \(p^T\)。当 \(p = 0.99, T = 100\) 时,成功率仅为 \(0.99^{100} \approx 0.37\)。
分层方法:
高层策略以较低频率运行,低层策略以高频执行原子技能。
可变形物体
绳索、布料、液体等可变形物体的操作是巨大挑战:
- 状态空间:可变形物体的状态维度理论上无穷大
- 物理建模:仿真中的可变形体计算成本高、精度差
- 表征学习:如何紧凑地表示可变形物体的状态
工具使用
工具使用要求理解工具的功能可供性(Affordance),包括:
- 工具选择:根据任务选择合适的工具
- 抓取规划:以功能性抓取方式持握工具
- 技能迁移:将一种工具的使用经验迁移到另一种
这需要对物理世界有深层的因果理解,远超模式匹配。
安全约束下的泛化
泛化策略在新环境中行为不确定,安全保障更加困难:
- 不确定性估计:策略何时"不确定"?
- 安全回退:检测到异常时执行安全停止
- 人机协作:在不确定的情况下请求人类帮助
标准化评估框架
为公平比较不同方法的泛化能力,社区正在建立标准化评估:
| 评估维度 | 指标 | 测量方式 |
|---|---|---|
| 训练效率 | 达到阈值性能所需数据量 | 数据缩放曲线 |
| 同分布性能 | 训练条件下的成功率 | 标准测试集 |
| OOD 泛化 | 分布外条件下的成功率 | 系统化的环境变化 |
| 适应速度 | few-shot 适应所需样本数 | K-shot 曲线 |
| 迁移比 | real/sim 成功率比 | Sim2Real 评估 |
与其他章节的联系
- 基础模型:模型与算法 中的 VLA 和世界模型是实现零样本泛化的关键
- 模仿学习:模仿学习 中的 BC 和扩散策略是多任务学习的底层算法
- 扩散策略:扩散策略 的多模态建模能力对多任务学习尤为重要
- 数据收集:遥操作与数据收集 中的数据规模化直接影响泛化能力
参考文献
- Reed, S., et al. (2022). A Generalist Agent. TMLR (Gato).
- Brohan, A., et al. (2023). RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control. CoRL.
- Liu, B., et al. (2023). LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning. NeurIPS.
- James, S., et al. (2020). RLBench: The Robot Learning Benchmark. IEEE RA-L.
- Ahn, M., et al. (2022). Do As I Can, Not As I Say: Grounding Language in Robotic Affordances. CoRL.
- Li, X., et al. (2024). SIMPLER: Simulated Manipulation Policy Evaluation for Robot Learning. CoRL.
- Finn, C., Abbeel, P., & Levine, S. (2017). Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks. ICML.