跳转至

关键论文精读

概述

本文深入解读具身智能领域 6 篇里程碑式论文。每篇论文从问题定义、方法设计、关键公式、实验结果和历史意义五个维度进行分析,帮助读者系统理解从 LLM 驱动的机器人到通用基础模型的技术演进。


1. SayCan — 语言模型遇上机器人可供性

Do As I Can, Not As I Say: Grounding Language in Robotic Affordances Ahn et al., 2022 (Google Research)

1.1 问题

大语言模型拥有丰富的世界知识和推理能力,但它们不了解特定机器人在特定场景下能做什么。如何将 LLM 的语义知识与机器人的物理能力结合起来?

1.2 核心思想

LLM 评估"应该做什么",机器人策略评估"能做什么",二者相乘得到最终决策。

1.3 方法

可供性评分

\[\text{score}(a_i) = p(\text{useful} | a_i, l) \cdot p(\text{possible} | a_i, s_t)\]

其中:

  • \(p(\text{useful} | a_i, l)\):LLM 的语言评分。给定用户指令 \(l\),LLM 评估候选技能 \(a_i\) 作为下一步的合理性。具体实现为 LLM 对 "\(l\). The robot should: 1. \(a_i\)" 的 token 概率。
  • \(p(\text{possible} | a_i, s_t)\):可供性评分。由预训练的值函数 \(V^{a_i}(s_t)\) 提供,反映在当前状态 \(s_t\) 下执行技能 \(a_i\) 的成功概率。

贪心解码

在每个规划步骤中:

\[a_t^* = \arg\max_{a_i \in \mathcal{A}} \left[ p(\text{useful} | a_i, l_t) \cdot V^{a_i}(s_t) \right]\]

执行 \(a_t^*\) 后,将结果附加到 LLM 的上下文中,继续规划下一步,直到 LLM 输出"done"。

1.4 技能库

  • 551 个技能:pick, place, go to, open, close 等
  • 每个技能有独立的 BC(行为克隆)策略和值函数
  • 在真实的移动操作机器人(Everyday Robots)上训练

1.5 关键结果

指标 SayCan 仅 LLM 仅可供性
规划成功率 84% 14% -
执行成功率 74% 0% -
长 horizon 任务 可处理 幻觉严重 无规划能力

1.6 意义与局限

意义

  • 首次系统性地将 LLM 与机器人控制结合
  • 提出了优雅的"可供性过滤"框架
  • 开创了 LLM for Robotics 的研究方向

局限

  • 技能库是固定的、预定义的
  • 需要为每个技能单独训练策略和值函数
  • 不能处理技能库之外的任务

2. RT-1 — 大规模机器人 Transformer

RT-1: Robotics Transformer for Real-World Control at Scale Brohan et al., 2022 (Google/Everyday Robots)

2.1 问题

之前的机器人学习方法通常在小规模数据上训练,难以泛化到新场景和新指令。能否像 NLP 中的 Transformer 一样,通过扩大数据和模型规模来提升机器人策略的泛化能力?

2.2 方法

架构

输入: - 6 张历史图像(当前帧 + 5 帧历史),由 EfficientNet-B3 编码 - 自然语言指令,由 Universal Sentence Encoder 编码

FiLM 条件化:语言嵌入通过 FiLM(Feature-wise Linear Modulation)层调制视觉特征:

\[\text{FiLM}(x; l) = \gamma(l) \odot x + \beta(l)\]

其中 \(\gamma(l)\)\(\beta(l)\) 是从语言嵌入 \(l\) 映射而来的缩放和偏移参数。

Token 化动作空间

连续动作被离散化为 256 个 bin:

\[a_t = [x, y, z, \text{roll}, \text{pitch}, \text{yaw}, \text{gripper}]\]

每个维度离散化为 256 个值,通过 Transformer 自回归地预测每个动作维度的 token。

TokenLearner:使用 TokenLearner 模块将视觉 token 从 81 个压缩到 8 个,显著减少计算量。

2.3 训练数据

属性 数值
演示轨迹数 130,000+
采集机器人数 13 台
采集时间 17 个月
任务种类 700+
物体种类 数百种

2.4 关键结果

评估维度 RT-1 Gato BC-Z
已见任务成功率 97% 63% 72%
未见任务(新指令) 76% 34% 48%
未见任务(新物体) 53% 24% 29%
长 horizon 任务

2.5 关键发现

  1. 数据规模至关重要:性能随数据量近似对数增长
  2. 多任务训练帮助泛化:共同训练 700+ 任务比单任务训练效果更好
  3. 真实数据 > 仿真数据:在这一规模下,真实数据的价值大于仿真数据

2.6 意义

RT-1 是机器人学习的 "GPT 时刻"——首次在大规模真实数据上训练单一 Transformer 策略,并展示出强大的多任务泛化能力。它证明了 Scaling Law 在机器人领域同样适用。


3. RT-2 — 从视觉语言模型到视觉语言动作模型

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control Brohan et al., 2023 (Google DeepMind)

3.1 问题

互联网上有海量的视觉-语言数据,其中蕴含丰富的世界知识。能否将视觉语言模型(VLM)中的知识直接迁移到机器人控制中?

3.2 核心创新:动作即文本 Token

关键洞察:机器人动作可以表示为文本 token 序列,与语言 token 统一处理。

动作表示:

\[a_t = \underbrace{[x, y, z, \text{rx}, \text{ry}, \text{rz}, \text{gripper}]}_{\text{7 维动作}} \rightarrow \underbrace{[\text{token}_1, \text{token}_2, \ldots, \text{token}_7]}_{\text{7 个文本 token}}\]

每个动作维度被离散化为 256 个 bin,映射到特殊的 token:rt_000rt_255

3.3 训练流程

  1. 预训练阶段:PaLI-X(55B)或 PaLM-E(12B)在互联网规模的视觉-语言数据上预训练
  2. 共同微调(Co-fine-tuning):同时在网络数据和机器人数据上微调
    • 网络数据:视觉问答、图像描述等
    • 机器人数据:RT-1 的数据(加入动作 token)
\[\mathcal{L} = \mathcal{L}_{\text{web}}(\text{VQA, caption, ...}) + \lambda \cdot \mathcal{L}_{\text{robot}}(\text{action tokens})\]

3.4 涌现能力

RT-2 展现出训练数据中不存在的推理能力:

涌现能力 示例
符号推理 "把垃圾扔到正确的垃圾桶"(需判断可回收/不可回收)
数学推理 "移动到三角形旁边"(需识别形状)
语言泛化 理解从未在机器人数据中出现的指令
视觉概念迁移 操作从未在机器人训练中出现的物体

3.5 关键结果

评估维度 RT-2 (PaLI-X) RT-1 VC-1
已见任务 95% 97% 73%
未见物体 62% 32% 22%
未见背景 72% 36% 29%
语义推理任务 62% 0% 0%

3.6 意义

RT-2 确立了 VLA(Vision-Language-Action)范式

\[\text{VLM} \xrightarrow{\text{动作 token 微调}} \text{VLA}\]

证明了互联网预训练的视觉-语言知识可以有效迁移到物理机器人控制。这意味着机器人可以利用整个互联网的知识库。


4. Diffusion Policy — 扩散模型驱动的机器人策略

Diffusion Policy: Visuomotor Policy Learning via Action Diffusion Chi et al., 2023 (Columbia University/Toyota Research Institute)

4.1 问题

传统的行为克隆方法在面对多模态分布时表现不佳。例如,绕过障碍物时可以左绕或右绕,均值回归会导致策略直接撞上障碍物:

\[a_{\text{mean}} = \frac{a_{\text{left}} + a_{\text{right}}}{2} = a_{\text{collision}}\]

如何学习能表达多模态动作分布的策略?

4.2 方法:DDPM 用于动作生成

核心思想:将策略学习建模为条件去噪扩散过程(DDPM)。

前向扩散(加噪)

\[q(a_t^k | a_t^{k-1}) = \mathcal{N}(a_t^k; \sqrt{1-\beta_k} a_t^{k-1}, \beta_k I)\]
\[q(a_t^K | a_t^0) = \mathcal{N}(a_t^K; \sqrt{\bar{\alpha}_K} a_t^0, (1-\bar{\alpha}_K) I)\]

其中 \(k\) 是扩散步(不是时间步),\(K\) 步后动作变为纯噪声。

反向去噪(生成动作)

\[p_\theta(a_t^{k-1} | a_t^k, o_t) = \mathcal{N}(a_t^{k-1}; \mu_\theta(a_t^k, k, o_t), \sigma_k^2 I)\]

网络 \(\epsilon_\theta\) 预测噪声:

\[\mu_\theta(a_t^k, k, o_t) = \frac{1}{\sqrt{\alpha_k}}\left(a_t^k - \frac{\beta_k}{\sqrt{1-\bar{\alpha}_k}} \epsilon_\theta(a_t^k, k, o_t)\right)\]

训练目标

\[\mathcal{L} = \mathbb{E}_{k, a_t^0, \epsilon} \left[ \|\epsilon - \epsilon_\theta(\sqrt{\bar{\alpha}_k} a_t^0 + \sqrt{1-\bar{\alpha}_k}\epsilon, k, o_t)\|^2 \right]\]

4.3 关键设计选择

动作块预测(Action Chunk)

不是预测单步动作,而是预测未来 \(T_a\) 步的动作序列:

\[A_t = [a_t, a_{t+1}, \ldots, a_{t+T_a-1}]\]

这提供了时间一致性,避免了逐步预测的抖动问题。

观测历史

使用最近 \(T_o\) 步的观测作为条件:

\[O_t = [o_{t-T_o+1}, \ldots, o_t]\]

两种架构变体

变体 条件方式 特点
CNN-based 1D 时间 CNN 处理动作序列,FiLM 注入观测 推理快,适合实时控制
Transformer-based 交叉注意力融合观测和动作 更灵活,性能略好

4.4 关键结果

在 11 个操作任务上的表现:

方法 平均成功率 多模态任务
Diffusion Policy (CNN) 86.8% 优秀
Diffusion Policy (Transformer) 83.5% 优秀
LSTM-GMM 62.7% 一般
IBC (Implicit BC) 52.3% 一般
Bet (BeT) 50.1% 一般

4.5 为什么扩散模型适合机器人策略

  1. 多模态表达:天然支持多模态动作分布
  2. 高维动作空间:扩散模型擅长高维分布建模
  3. 稳定训练:比 GAN 更稳定
  4. 条件灵活:容易加入各种条件信息
  5. 时间一致性:动作块预测提供平滑轨迹

4.6 意义

Diffusion Policy 将生成模型范式引入机器人策略学习,解决了行为克隆的核心难题(多模态分布)。此后,扩散模型成为机器人操作策略的标准选择之一。


5. Open X-Embodiment — 跨具身开放数据集

Open X-Embodiment: Robotic Learning Datasets and RT-X Models Open X-Embodiment Collaboration, 2024 (33 institutions)

5.1 问题

机器人学习面临严重的数据碎片化问题:

  • 每个实验室收集自己的数据
  • 不同机器人、不同格式、不同任务
  • 无法利用其他机器人的经验

如何构建机器人学习的 "ImageNet"?

5.2 数据集

规模

属性 数值
参与机构 33 个
数据集数量 60+
机器人类型 22 种
总轨迹数 1,000,000+
数据格式 RLDS (统一)

数据格式标准化(RLDS)

每条轨迹统一为:

{
  "steps": [
    {
      "observation": {
        "image": ...,           # RGB 图像
        "wrist_image": ...,     # 腕部相机(可选)
        "state": ...            # 本体感受
      },
      "action": ...,            # 标准化动作
      "language_instruction": ...,
      "reward": ...,
      "is_terminal": ...
    },
    ...
  ]
}

机器人类型覆盖

  • 单臂桌面操作(Franka, UR5, xArm, ...)
  • 双臂操作(ALOHA, Baxter, ...)
  • 移动操作(Everyday Robots, Stretch, ...)
  • 四足机器人(A1, Spot, ...)
  • 灵巧手(Allegro, LEAP, ...)

5.3 RT-X 模型

基于 Open X-Embodiment 数据训练的跨具身模型:

RT-1-X:RT-1 架构在混合数据上训练

RT-2-X:RT-2 架构在混合数据上训练

5.4 关键发现

正迁移(Positive Transfer)

评估目标 RT-1-X vs RT-1(单数据集) 提升
在目标机器人上的平均表现 +50% 的评估场景有提升 显著
跨机器人泛化 明显好于单一数据集 显著

关键实验:在 A 机器人上的策略,通过跨具身训练后,性能比仅用 A 机器人数据训练更好。这证明了不同机器人的经验可以互相促进

数据规模效应

\[\text{Performance} \propto \log(\text{dataset size})\]

即使加入了与目标机器人完全不同形态的数据,整体性能也在提升。

5.5 意义

Open X-Embodiment 是具身智能领域的 "ImageNet 时刻"

  • 建立了跨具身数据共享的标准和文化
  • 证明了跨具身迁移学习的可行性
  • 为后续通用机器人基础模型提供了数据基础
  • 推动了开源数据生态的建设

6. pi0 — 通用机器人基础模型

pi0: A Vision-Language-Action Flow Model for General Robot Control Black et al., 2024 (Physical Intelligence)

6.1 问题

如何构建一个真正通用的机器人基础模型——能够在多种机器人、多种任务上工作,并且能通过少量数据快速适应新任务?

6.2 架构

pi0 采用双组件架构:

VLM 骨干网络

基于预训练的视觉语言模型(PaLI-Gemma 3B 变体),处理: - 多视角图像输入 - 自然语言指令 - 本体感受状态

Flow Matching 动作头

不同于 RT-2 的离散 token 输出,pi0 使用 Flow Matching 生成连续动作。

6.3 Flow Matching

Flow Matching 是扩散模型的替代方案,通过学习一个速度场将噪声分布转换为数据分布:

基本思想

定义从噪声 \(x_0 \sim \mathcal{N}(0, I)\) 到数据 \(x_1 \sim p_{\text{data}}\) 的线性路径:

\[x_t = (1-t) x_0 + t x_1, \quad t \in [0, 1]\]

对应的速度场为:

\[u_t(x_t) = x_1 - x_0\]

训练目标

\[\mathcal{L}_{\text{FM}} = \mathbb{E}_{t, x_0, x_1} \left[ \|v_\theta(x_t, t, c) - (x_1 - x_0)\|^2 \right]\]

其中 \(c\) 为条件信息(图像、语言、本体感受),\(v_\theta\) 为神经网络参数化的速度场。

推理(生成动作)

\[x_1 = x_0 + \int_0^1 v_\theta(x_t, t, c) \, dt\]

通过数值积分(如 Euler 方法)求解 ODE:

\[x_{t+\Delta t} = x_t + v_\theta(x_t, t, c) \cdot \Delta t\]

6.4 相比扩散模型的优势

维度 DDPM 扩散 Flow Matching
路径 随机的(SDE) 确定的(ODE)
训练 预测噪声 \(\epsilon\) 预测速度 \(v\)
采样步数 通常需要 50-1000 步 通常 10-50 步
推理速度 较慢 较快(适合实时控制)
训练稳定性 更好

6.5 训练流程

阶段 1:预训练

在大规模跨具身数据上预训练(类似 Open X-Embodiment + 自有数据)

阶段 2:任务微调

在特定任务数据上微调,使用较小的学习率

阶段 3:实时微调

在部署环境中收集少量数据进行快速适应

6.6 关键结果

pi0 在多种任务和机器人上展示了强大的泛化能力:

任务 机器人平台 成功率
叠衣服 双臂 + 灵巧手
清理桌面 单臂操作
装箱 双臂
零样本新物体操作 多种 中高

与基线对比(在操作任务上):

方法 平均成功率
pi0 最高
Diffusion Policy 次之
RT-2-X 中等
ACT 较低

6.7 意义

pi0 代表了机器人基础模型的最新范式

  1. VLM 作为"大脑":利用互联网预训练的知识进行理解和推理
  2. Flow Matching 作为"运动系统":高效生成平滑的连续动作
  3. 预训练-微调范式:大规模预训练 + 任务特定微调
  4. 通用性:单一模型适配多种机器人和任务

7. 论文间的技术演进

flowchart TB
    A[SayCan 2022<br/>LLM + 固定技能] --> B[RT-1 2022<br/>大规模学习策略]
    B --> C[RT-2 2023<br/>VLM→VLA 迁移]
    D[Diffusion Policy 2023<br/>生成式策略] --> F[pi0 2024<br/>VLM + Flow Matching]
    C --> E[Open X-Embodiment 2024<br/>跨具身数据]
    E --> F
    C --> F

技术演进主线

阶段 代表 范式
LLM 辅助 SayCan LLM 规划 + 预定义技能
大规模学习 RT-1 Transformer + 大数据
知识迁移 RT-2 VLM → VLA
生成式策略 Diffusion Policy 扩散模型生成动作
开放生态 Open X-Embodiment 跨具身数据共享
基础模型 pi0 VLM + Flow Matching + 预训练微调

8. 总结与展望

8.1 共同趋势

  1. 规模化:数据规模、模型规模、任务规模持续扩大
  2. 统一化:感知、推理、控制逐步统一到单一模型
  3. 迁移化:互联网知识 → 机器人,机器人 A → 机器人 B
  4. 生成化:从判别式策略到生成式策略

8.2 未解决的问题

  • 安全性:端到端模型的行为如何保证安全?
  • 可解释性:VLA 模型的决策过程如何理解?
  • 数据效率:能否用更少的数据达到同样的性能?
  • 长 horizon:如何处理需要数百步的复杂任务?
  • 具身推理:超越模式匹配的物理推理能力

参考资料

  • Ahn, M. et al. (2022). "Do As I Can, Not As I Say: Grounding Language in Robotic Affordances"
  • Brohan, A. et al. (2022). "RT-1: Robotics Transformer for Real-World Control at Scale"
  • Brohan, A. et al. (2023). "RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control"
  • Chi, C. et al. (2023). "Diffusion Policy: Visuomotor Policy Learning via Action Diffusion"
  • Open X-Embodiment Collaboration (2024). "Open X-Embodiment: Robotic Learning Datasets and RT-X Models"
  • Black, K. et al. (2024). "pi0: A Vision-Language-Action Flow Model for General Robot Control"

相关笔记


评论 #