关键论文精读
概述
本文深入解读具身智能领域 6 篇里程碑式论文。每篇论文从问题定义、方法设计、关键公式、实验结果和历史意义五个维度进行分析,帮助读者系统理解从 LLM 驱动的机器人到通用基础模型的技术演进。
1. SayCan — 语言模型遇上机器人可供性
Do As I Can, Not As I Say: Grounding Language in Robotic Affordances Ahn et al., 2022 (Google Research)
1.1 问题
大语言模型拥有丰富的世界知识和推理能力,但它们不了解特定机器人在特定场景下能做什么。如何将 LLM 的语义知识与机器人的物理能力结合起来?
1.2 核心思想
LLM 评估"应该做什么",机器人策略评估"能做什么",二者相乘得到最终决策。
1.3 方法
可供性评分:
其中:
- \(p(\text{useful} | a_i, l)\):LLM 的语言评分。给定用户指令 \(l\),LLM 评估候选技能 \(a_i\) 作为下一步的合理性。具体实现为 LLM 对 "\(l\). The robot should: 1. \(a_i\)" 的 token 概率。
- \(p(\text{possible} | a_i, s_t)\):可供性评分。由预训练的值函数 \(V^{a_i}(s_t)\) 提供,反映在当前状态 \(s_t\) 下执行技能 \(a_i\) 的成功概率。
贪心解码:
在每个规划步骤中:
执行 \(a_t^*\) 后,将结果附加到 LLM 的上下文中,继续规划下一步,直到 LLM 输出"done"。
1.4 技能库
- 551 个技能:pick, place, go to, open, close 等
- 每个技能有独立的 BC(行为克隆)策略和值函数
- 在真实的移动操作机器人(Everyday Robots)上训练
1.5 关键结果
| 指标 | SayCan | 仅 LLM | 仅可供性 |
|---|---|---|---|
| 规划成功率 | 84% | 14% | - |
| 执行成功率 | 74% | 0% | - |
| 长 horizon 任务 | 可处理 | 幻觉严重 | 无规划能力 |
1.6 意义与局限
意义:
- 首次系统性地将 LLM 与机器人控制结合
- 提出了优雅的"可供性过滤"框架
- 开创了 LLM for Robotics 的研究方向
局限:
- 技能库是固定的、预定义的
- 需要为每个技能单独训练策略和值函数
- 不能处理技能库之外的任务
2. RT-1 — 大规模机器人 Transformer
RT-1: Robotics Transformer for Real-World Control at Scale Brohan et al., 2022 (Google/Everyday Robots)
2.1 问题
之前的机器人学习方法通常在小规模数据上训练,难以泛化到新场景和新指令。能否像 NLP 中的 Transformer 一样,通过扩大数据和模型规模来提升机器人策略的泛化能力?
2.2 方法
架构:
输入: - 6 张历史图像(当前帧 + 5 帧历史),由 EfficientNet-B3 编码 - 自然语言指令,由 Universal Sentence Encoder 编码
FiLM 条件化:语言嵌入通过 FiLM(Feature-wise Linear Modulation)层调制视觉特征:
其中 \(\gamma(l)\) 和 \(\beta(l)\) 是从语言嵌入 \(l\) 映射而来的缩放和偏移参数。
Token 化动作空间:
连续动作被离散化为 256 个 bin:
每个维度离散化为 256 个值,通过 Transformer 自回归地预测每个动作维度的 token。
TokenLearner:使用 TokenLearner 模块将视觉 token 从 81 个压缩到 8 个,显著减少计算量。
2.3 训练数据
| 属性 | 数值 |
|---|---|
| 演示轨迹数 | 130,000+ |
| 采集机器人数 | 13 台 |
| 采集时间 | 17 个月 |
| 任务种类 | 700+ |
| 物体种类 | 数百种 |
2.4 关键结果
| 评估维度 | RT-1 | Gato | BC-Z |
|---|---|---|---|
| 已见任务成功率 | 97% | 63% | 72% |
| 未见任务(新指令) | 76% | 34% | 48% |
| 未见任务(新物体) | 53% | 24% | 29% |
| 长 horizon 任务 | 高 | 低 | 中 |
2.5 关键发现
- 数据规模至关重要:性能随数据量近似对数增长
- 多任务训练帮助泛化:共同训练 700+ 任务比单任务训练效果更好
- 真实数据 > 仿真数据:在这一规模下,真实数据的价值大于仿真数据
2.6 意义
RT-1 是机器人学习的 "GPT 时刻"——首次在大规模真实数据上训练单一 Transformer 策略,并展示出强大的多任务泛化能力。它证明了 Scaling Law 在机器人领域同样适用。
3. RT-2 — 从视觉语言模型到视觉语言动作模型
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control Brohan et al., 2023 (Google DeepMind)
3.1 问题
互联网上有海量的视觉-语言数据,其中蕴含丰富的世界知识。能否将视觉语言模型(VLM)中的知识直接迁移到机器人控制中?
3.2 核心创新:动作即文本 Token
关键洞察:机器人动作可以表示为文本 token 序列,与语言 token 统一处理。
动作表示:
每个动作维度被离散化为 256 个 bin,映射到特殊的 token:rt_000 到 rt_255。
3.3 训练流程
- 预训练阶段:PaLI-X(55B)或 PaLM-E(12B)在互联网规模的视觉-语言数据上预训练
- 共同微调(Co-fine-tuning):同时在网络数据和机器人数据上微调
- 网络数据:视觉问答、图像描述等
- 机器人数据:RT-1 的数据(加入动作 token)
3.4 涌现能力
RT-2 展现出训练数据中不存在的推理能力:
| 涌现能力 | 示例 |
|---|---|
| 符号推理 | "把垃圾扔到正确的垃圾桶"(需判断可回收/不可回收) |
| 数学推理 | "移动到三角形旁边"(需识别形状) |
| 语言泛化 | 理解从未在机器人数据中出现的指令 |
| 视觉概念迁移 | 操作从未在机器人训练中出现的物体 |
3.5 关键结果
| 评估维度 | RT-2 (PaLI-X) | RT-1 | VC-1 |
|---|---|---|---|
| 已见任务 | 95% | 97% | 73% |
| 未见物体 | 62% | 32% | 22% |
| 未见背景 | 72% | 36% | 29% |
| 语义推理任务 | 62% | 0% | 0% |
3.6 意义
RT-2 确立了 VLA(Vision-Language-Action)范式:
证明了互联网预训练的视觉-语言知识可以有效迁移到物理机器人控制。这意味着机器人可以利用整个互联网的知识库。
4. Diffusion Policy — 扩散模型驱动的机器人策略
Diffusion Policy: Visuomotor Policy Learning via Action Diffusion Chi et al., 2023 (Columbia University/Toyota Research Institute)
4.1 问题
传统的行为克隆方法在面对多模态分布时表现不佳。例如,绕过障碍物时可以左绕或右绕,均值回归会导致策略直接撞上障碍物:
如何学习能表达多模态动作分布的策略?
4.2 方法:DDPM 用于动作生成
核心思想:将策略学习建模为条件去噪扩散过程(DDPM)。
前向扩散(加噪):
其中 \(k\) 是扩散步(不是时间步),\(K\) 步后动作变为纯噪声。
反向去噪(生成动作):
网络 \(\epsilon_\theta\) 预测噪声:
训练目标:
4.3 关键设计选择
动作块预测(Action Chunk):
不是预测单步动作,而是预测未来 \(T_a\) 步的动作序列:
这提供了时间一致性,避免了逐步预测的抖动问题。
观测历史:
使用最近 \(T_o\) 步的观测作为条件:
两种架构变体:
| 变体 | 条件方式 | 特点 |
|---|---|---|
| CNN-based | 1D 时间 CNN 处理动作序列,FiLM 注入观测 | 推理快,适合实时控制 |
| Transformer-based | 交叉注意力融合观测和动作 | 更灵活,性能略好 |
4.4 关键结果
在 11 个操作任务上的表现:
| 方法 | 平均成功率 | 多模态任务 |
|---|---|---|
| Diffusion Policy (CNN) | 86.8% | 优秀 |
| Diffusion Policy (Transformer) | 83.5% | 优秀 |
| LSTM-GMM | 62.7% | 一般 |
| IBC (Implicit BC) | 52.3% | 一般 |
| Bet (BeT) | 50.1% | 一般 |
4.5 为什么扩散模型适合机器人策略
- 多模态表达:天然支持多模态动作分布
- 高维动作空间:扩散模型擅长高维分布建模
- 稳定训练:比 GAN 更稳定
- 条件灵活:容易加入各种条件信息
- 时间一致性:动作块预测提供平滑轨迹
4.6 意义
Diffusion Policy 将生成模型范式引入机器人策略学习,解决了行为克隆的核心难题(多模态分布)。此后,扩散模型成为机器人操作策略的标准选择之一。
5. Open X-Embodiment — 跨具身开放数据集
Open X-Embodiment: Robotic Learning Datasets and RT-X Models Open X-Embodiment Collaboration, 2024 (33 institutions)
5.1 问题
机器人学习面临严重的数据碎片化问题:
- 每个实验室收集自己的数据
- 不同机器人、不同格式、不同任务
- 无法利用其他机器人的经验
如何构建机器人学习的 "ImageNet"?
5.2 数据集
规模:
| 属性 | 数值 |
|---|---|
| 参与机构 | 33 个 |
| 数据集数量 | 60+ |
| 机器人类型 | 22 种 |
| 总轨迹数 | 1,000,000+ |
| 数据格式 | RLDS (统一) |
数据格式标准化(RLDS):
每条轨迹统一为:
{
"steps": [
{
"observation": {
"image": ..., # RGB 图像
"wrist_image": ..., # 腕部相机(可选)
"state": ... # 本体感受
},
"action": ..., # 标准化动作
"language_instruction": ...,
"reward": ...,
"is_terminal": ...
},
...
]
}
机器人类型覆盖:
- 单臂桌面操作(Franka, UR5, xArm, ...)
- 双臂操作(ALOHA, Baxter, ...)
- 移动操作(Everyday Robots, Stretch, ...)
- 四足机器人(A1, Spot, ...)
- 灵巧手(Allegro, LEAP, ...)
5.3 RT-X 模型
基于 Open X-Embodiment 数据训练的跨具身模型:
RT-1-X:RT-1 架构在混合数据上训练
RT-2-X:RT-2 架构在混合数据上训练
5.4 关键发现
正迁移(Positive Transfer):
| 评估目标 | RT-1-X vs RT-1(单数据集) | 提升 |
|---|---|---|
| 在目标机器人上的平均表现 | +50% 的评估场景有提升 | 显著 |
| 跨机器人泛化 | 明显好于单一数据集 | 显著 |
关键实验:在 A 机器人上的策略,通过跨具身训练后,性能比仅用 A 机器人数据训练更好。这证明了不同机器人的经验可以互相促进。
数据规模效应:
即使加入了与目标机器人完全不同形态的数据,整体性能也在提升。
5.5 意义
Open X-Embodiment 是具身智能领域的 "ImageNet 时刻":
- 建立了跨具身数据共享的标准和文化
- 证明了跨具身迁移学习的可行性
- 为后续通用机器人基础模型提供了数据基础
- 推动了开源数据生态的建设
6. pi0 — 通用机器人基础模型
pi0: A Vision-Language-Action Flow Model for General Robot Control Black et al., 2024 (Physical Intelligence)
6.1 问题
如何构建一个真正通用的机器人基础模型——能够在多种机器人、多种任务上工作,并且能通过少量数据快速适应新任务?
6.2 架构
pi0 采用双组件架构:
VLM 骨干网络:
基于预训练的视觉语言模型(PaLI-Gemma 3B 变体),处理: - 多视角图像输入 - 自然语言指令 - 本体感受状态
Flow Matching 动作头:
不同于 RT-2 的离散 token 输出,pi0 使用 Flow Matching 生成连续动作。
6.3 Flow Matching
Flow Matching 是扩散模型的替代方案,通过学习一个速度场将噪声分布转换为数据分布:
基本思想:
定义从噪声 \(x_0 \sim \mathcal{N}(0, I)\) 到数据 \(x_1 \sim p_{\text{data}}\) 的线性路径:
对应的速度场为:
训练目标:
其中 \(c\) 为条件信息(图像、语言、本体感受),\(v_\theta\) 为神经网络参数化的速度场。
推理(生成动作):
通过数值积分(如 Euler 方法)求解 ODE:
6.4 相比扩散模型的优势
| 维度 | DDPM 扩散 | Flow Matching |
|---|---|---|
| 路径 | 随机的(SDE) | 确定的(ODE) |
| 训练 | 预测噪声 \(\epsilon\) | 预测速度 \(v\) |
| 采样步数 | 通常需要 50-1000 步 | 通常 10-50 步 |
| 推理速度 | 较慢 | 较快(适合实时控制) |
| 训练稳定性 | 好 | 更好 |
6.5 训练流程
阶段 1:预训练
在大规模跨具身数据上预训练(类似 Open X-Embodiment + 自有数据)
阶段 2:任务微调
在特定任务数据上微调,使用较小的学习率
阶段 3:实时微调
在部署环境中收集少量数据进行快速适应
6.6 关键结果
pi0 在多种任务和机器人上展示了强大的泛化能力:
| 任务 | 机器人平台 | 成功率 |
|---|---|---|
| 叠衣服 | 双臂 + 灵巧手 | 高 |
| 清理桌面 | 单臂操作 | 高 |
| 装箱 | 双臂 | 高 |
| 零样本新物体操作 | 多种 | 中高 |
与基线对比(在操作任务上):
| 方法 | 平均成功率 |
|---|---|
| pi0 | 最高 |
| Diffusion Policy | 次之 |
| RT-2-X | 中等 |
| ACT | 较低 |
6.7 意义
pi0 代表了机器人基础模型的最新范式:
- VLM 作为"大脑":利用互联网预训练的知识进行理解和推理
- Flow Matching 作为"运动系统":高效生成平滑的连续动作
- 预训练-微调范式:大规模预训练 + 任务特定微调
- 通用性:单一模型适配多种机器人和任务
7. 论文间的技术演进
flowchart TB
A[SayCan 2022<br/>LLM + 固定技能] --> B[RT-1 2022<br/>大规模学习策略]
B --> C[RT-2 2023<br/>VLM→VLA 迁移]
D[Diffusion Policy 2023<br/>生成式策略] --> F[pi0 2024<br/>VLM + Flow Matching]
C --> E[Open X-Embodiment 2024<br/>跨具身数据]
E --> F
C --> F
技术演进主线:
| 阶段 | 代表 | 范式 |
|---|---|---|
| LLM 辅助 | SayCan | LLM 规划 + 预定义技能 |
| 大规模学习 | RT-1 | Transformer + 大数据 |
| 知识迁移 | RT-2 | VLM → VLA |
| 生成式策略 | Diffusion Policy | 扩散模型生成动作 |
| 开放生态 | Open X-Embodiment | 跨具身数据共享 |
| 基础模型 | pi0 | VLM + Flow Matching + 预训练微调 |
8. 总结与展望
8.1 共同趋势
- 规模化:数据规模、模型规模、任务规模持续扩大
- 统一化:感知、推理、控制逐步统一到单一模型
- 迁移化:互联网知识 → 机器人,机器人 A → 机器人 B
- 生成化:从判别式策略到生成式策略
8.2 未解决的问题
- 安全性:端到端模型的行为如何保证安全?
- 可解释性:VLA 模型的决策过程如何理解?
- 数据效率:能否用更少的数据达到同样的性能?
- 长 horizon:如何处理需要数百步的复杂任务?
- 具身推理:超越模式匹配的物理推理能力
参考资料
- Ahn, M. et al. (2022). "Do As I Can, Not As I Say: Grounding Language in Robotic Affordances"
- Brohan, A. et al. (2022). "RT-1: Robotics Transformer for Real-World Control at Scale"
- Brohan, A. et al. (2023). "RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control"
- Chi, C. et al. (2023). "Diffusion Policy: Visuomotor Policy Learning via Action Diffusion"
- Open X-Embodiment Collaboration (2024). "Open X-Embodiment: Robotic Learning Datasets and RT-X Models"
- Black, K. et al. (2024). "pi0: A Vision-Language-Action Flow Model for General Robot Control"
相关笔记: