关键论文精读

概述

本文深入解读具身智能领域 6 篇里程碑式论文。每篇论文从问题定义、方法设计、关键公式、实验结果和历史意义五个维度进行分析，帮助读者系统理解从 LLM 驱动的机器人到通用基础模型的技术演进。

1. SayCan — 语言模型遇上机器人可供性

Do As I Can, Not As I Say: Grounding Language in Robotic Affordances Ahn et al., 2022 (Google Research)

1.1 问题

大语言模型拥有丰富的世界知识和推理能力，但它们不了解特定机器人在特定场景下能做什么。如何将 LLM 的语义知识与机器人的物理能力结合起来？

1.2 核心思想

LLM 评估"应该做什么"，机器人策略评估"能做什么"，二者相乘得到最终决策。

1.3 方法

可供性评分：

\[\text{score}(a_i) = p(\text{useful} | a_i, l) \cdot p(\text{possible} | a_i, s_t)\]

其中：

\(p(\text{useful} | a_i, l)\)：LLM 的语言评分。给定用户指令 \(l\)，LLM 评估候选技能 \(a_i\) 作为下一步的合理性。具体实现为 LLM 对 "\(l\). The robot should: 1. \(a_i\)" 的 token 概率。
\(p(\text{possible} | a_i, s_t)\)：可供性评分。由预训练的值函数 \(V^{a_i}(s_t)\) 提供，反映在当前状态 \(s_t\) 下执行技能 \(a_i\) 的成功概率。

贪心解码：

在每个规划步骤中：

\[a_t^* = \arg\max_{a_i \in \mathcal{A}} \left[ p(\text{useful} | a_i, l_t) \cdot V^{a_i}(s_t) \right]\]

执行 \(a_t^*\) 后，将结果附加到 LLM 的上下文中，继续规划下一步，直到 LLM 输出"done"。

1.4 技能库

551 个技能：pick, place, go to, open, close 等
每个技能有独立的 BC（行为克隆）策略和值函数
在真实的移动操作机器人（Everyday Robots）上训练

1.5 关键结果

指标	SayCan	仅 LLM	仅可供性
规划成功率	84%	14%	-
执行成功率	74%	0%	-
长 horizon 任务	可处理	幻觉严重	无规划能力

1.6 意义与局限

意义：

首次系统性地将 LLM 与机器人控制结合
提出了优雅的"可供性过滤"框架
开创了 LLM for Robotics 的研究方向

局限：

技能库是固定的、预定义的
需要为每个技能单独训练策略和值函数
不能处理技能库之外的任务

2. RT-1 — 大规模机器人 Transformer

RT-1: Robotics Transformer for Real-World Control at Scale Brohan et al., 2022 (Google/Everyday Robots)

2.1 问题

之前的机器人学习方法通常在小规模数据上训练，难以泛化到新场景和新指令。能否像 NLP 中的 Transformer 一样，通过扩大数据和模型规模来提升机器人策略的泛化能力？

2.2 方法

架构：

输入： - 6 张历史图像（当前帧 + 5 帧历史），由 EfficientNet-B3 编码 - 自然语言指令，由 Universal Sentence Encoder 编码

FiLM 条件化：语言嵌入通过 FiLM（Feature-wise Linear Modulation）层调制视觉特征：

\[\text{FiLM}(x; l) = \gamma(l) \odot x + \beta(l)\]

其中 \(\gamma(l)\) 和 \(\beta(l)\) 是从语言嵌入 \(l\) 映射而来的缩放和偏移参数。

Token 化动作空间：

连续动作被离散化为 256 个 bin：

\[a_t = [x, y, z, \text{roll}, \text{pitch}, \text{yaw}, \text{gripper}]\]

每个维度离散化为 256 个值，通过 Transformer 自回归地预测每个动作维度的 token。

TokenLearner：使用 TokenLearner 模块将视觉 token 从 81 个压缩到 8 个，显著减少计算量。

2.3 训练数据

属性	数值
演示轨迹数	130,000+
采集机器人数	13 台
采集时间	17 个月
任务种类	700+
物体种类	数百种

2.4 关键结果

评估维度	RT-1	Gato	BC-Z
已见任务成功率	97%	63%	72%
未见任务（新指令）	76%	34%	48%
未见任务（新物体）	53%	24%	29%
长 horizon 任务	高	低	中

2.5 关键发现

数据规模至关重要：性能随数据量近似对数增长
多任务训练帮助泛化：共同训练 700+ 任务比单任务训练效果更好
真实数据 > 仿真数据：在这一规模下，真实数据的价值大于仿真数据

2.6 意义

RT-1 是机器人学习的 "GPT 时刻"——首次在大规模真实数据上训练单一 Transformer 策略，并展示出强大的多任务泛化能力。它证明了 Scaling Law 在机器人领域同样适用。

3. RT-2 — 从视觉语言模型到视觉语言动作模型

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control Brohan et al., 2023 (Google DeepMind)

3.1 问题

互联网上有海量的视觉-语言数据，其中蕴含丰富的世界知识。能否将视觉语言模型（VLM）中的知识直接迁移到机器人控制中？

3.2 核心创新：动作即文本 Token

关键洞察：机器人动作可以表示为文本 token 序列，与语言 token 统一处理。

动作表示：

\[a_t = \underbrace{[x, y, z, \text{rx}, \text{ry}, \text{rz}, \text{gripper}]}_{\text{7 维动作}} \rightarrow \underbrace{[\text{token}_1, \text{token}_2, \ldots, \text{token}_7]}_{\text{7 个文本 token}}\]

每个动作维度被离散化为 256 个 bin，映射到特殊的 token：rt_000 到 rt_255。

3.3 训练流程

预训练阶段：PaLI-X（55B）或 PaLM-E（12B）在互联网规模的视觉-语言数据上预训练
共同微调（Co-fine-tuning）：同时在网络数据和机器人数据上微调
- 网络数据：视觉问答、图像描述等
- 机器人数据：RT-1 的数据（加入动作 token）

\[\mathcal{L} = \mathcal{L}_{\text{web}}(\text{VQA, caption, ...}) + \lambda \cdot \mathcal{L}_{\text{robot}}(\text{action tokens})\]

3.4 涌现能力

RT-2 展现出训练数据中不存在的推理能力：

涌现能力	示例
符号推理	"把垃圾扔到正确的垃圾桶"（需判断可回收/不可回收）
数学推理	"移动到三角形旁边"（需识别形状）
语言泛化	理解从未在机器人数据中出现的指令
视觉概念迁移	操作从未在机器人训练中出现的物体

3.5 关键结果

评估维度	RT-2 (PaLI-X)	RT-1	VC-1
已见任务	95%	97%	73%
未见物体	62%	32%	22%
未见背景	72%	36%	29%
语义推理任务	62%	0%	0%

3.6 意义

RT-2 确立了 VLA（Vision-Language-Action）范式：

\[\text{VLM} \xrightarrow{\text{动作 token 微调}} \text{VLA}\]

证明了互联网预训练的视觉-语言知识可以有效迁移到物理机器人控制。这意味着机器人可以利用整个互联网的知识库。

4. Diffusion Policy — 扩散模型驱动的机器人策略

Diffusion Policy: Visuomotor Policy Learning via Action Diffusion Chi et al., 2023 (Columbia University/Toyota Research Institute)

4.1 问题

传统的行为克隆方法在面对多模态分布时表现不佳。例如，绕过障碍物时可以左绕或右绕，均值回归会导致策略直接撞上障碍物：

\[a_{\text{mean}} = \frac{a_{\text{left}} + a_{\text{right}}}{2} = a_{\text{collision}}\]

如何学习能表达多模态动作分布的策略？

4.2 方法：DDPM 用于动作生成

核心思想：将策略学习建模为条件去噪扩散过程（DDPM）。

前向扩散（加噪）：

\[q(a_t^k | a_t^{k-1}) = \mathcal{N}(a_t^k; \sqrt{1-\beta_k} a_t^{k-1}, \beta_k I)\]

\[q(a_t^K | a_t^0) = \mathcal{N}(a_t^K; \sqrt{\bar{\alpha}_K} a_t^0, (1-\bar{\alpha}_K) I)\]

其中 \(k\) 是扩散步（不是时间步），\(K\) 步后动作变为纯噪声。

反向去噪（生成动作）：

\[p_\theta(a_t^{k-1} | a_t^k, o_t) = \mathcal{N}(a_t^{k-1}; \mu_\theta(a_t^k, k, o_t), \sigma_k^2 I)\]

网络 \(\epsilon_\theta\) 预测噪声：

\[\mu_\theta(a_t^k, k, o_t) = \frac{1}{\sqrt{\alpha_k}}\left(a_t^k - \frac{\beta_k}{\sqrt{1-\bar{\alpha}_k}} \epsilon_\theta(a_t^k, k, o_t)\right)\]

训练目标：

\[\mathcal{L} = \mathbb{E}_{k, a_t^0, \epsilon} \left[ \|\epsilon - \epsilon_\theta(\sqrt{\bar{\alpha}_k} a_t^0 + \sqrt{1-\bar{\alpha}_k}\epsilon, k, o_t)\|^2 \right]\]

4.3 关键设计选择

动作块预测（Action Chunk）：

不是预测单步动作，而是预测未来 \(T_a\) 步的动作序列：

\[A_t = [a_t, a_{t+1}, \ldots, a_{t+T_a-1}]\]

这提供了时间一致性，避免了逐步预测的抖动问题。

观测历史：

使用最近 \(T_o\) 步的观测作为条件：

\[O_t = [o_{t-T_o+1}, \ldots, o_t]\]

两种架构变体：

变体	条件方式	特点
CNN-based	1D 时间 CNN 处理动作序列，FiLM 注入观测	推理快，适合实时控制
Transformer-based	交叉注意力融合观测和动作	更灵活，性能略好

4.4 关键结果

在 11 个操作任务上的表现：

方法	平均成功率	多模态任务
Diffusion Policy (CNN)	86.8%	优秀
Diffusion Policy (Transformer)	83.5%	优秀
LSTM-GMM	62.7%	一般
IBC (Implicit BC)	52.3%	一般
Bet (BeT)	50.1%	一般

4.5 为什么扩散模型适合机器人策略

多模态表达：天然支持多模态动作分布
高维动作空间：扩散模型擅长高维分布建模
稳定训练：比 GAN 更稳定
条件灵活：容易加入各种条件信息
时间一致性：动作块预测提供平滑轨迹

4.6 意义

Diffusion Policy 将生成模型范式引入机器人策略学习，解决了行为克隆的核心难题（多模态分布）。此后，扩散模型成为机器人操作策略的标准选择之一。

5. Open X-Embodiment — 跨具身开放数据集

Open X-Embodiment: Robotic Learning Datasets and RT-X Models Open X-Embodiment Collaboration, 2024 (33 institutions)

5.1 问题

机器人学习面临严重的数据碎片化问题：

每个实验室收集自己的数据
不同机器人、不同格式、不同任务
无法利用其他机器人的经验

如何构建机器人学习的 "ImageNet"？

5.2 数据集

规模：

属性	数值
参与机构	33 个
数据集数量	60+
机器人类型	22 种
总轨迹数	1,000,000+
数据格式	RLDS (统一)

数据格式标准化（RLDS）：

每条轨迹统一为：

{
  "steps": [
    {
      "observation": {
        "image": ...,           # RGB 图像
        "wrist_image": ...,     # 腕部相机（可选）
        "state": ...            # 本体感受
      },
      "action": ...,            # 标准化动作
      "language_instruction": ...,
      "reward": ...,
      "is_terminal": ...
    },
    ...
  ]
}

机器人类型覆盖：

单臂桌面操作（Franka, UR5, xArm, ...）
双臂操作（ALOHA, Baxter, ...）
移动操作（Everyday Robots, Stretch, ...）
四足机器人（A1, Spot, ...）
灵巧手（Allegro, LEAP, ...）

5.3 RT-X 模型

基于 Open X-Embodiment 数据训练的跨具身模型：

RT-1-X：RT-1 架构在混合数据上训练

RT-2-X：RT-2 架构在混合数据上训练

5.4 关键发现

正迁移（Positive Transfer）：

评估目标	RT-1-X vs RT-1（单数据集）	提升
在目标机器人上的平均表现	+50% 的评估场景有提升	显著
跨机器人泛化	明显好于单一数据集	显著

关键实验：在 A 机器人上的策略，通过跨具身训练后，性能比仅用 A 机器人数据训练更好。这证明了不同机器人的经验可以互相促进。

数据规模效应：

\[\text{Performance} \propto \log(\text{dataset size})\]

即使加入了与目标机器人完全不同形态的数据，整体性能也在提升。

5.5 意义

Open X-Embodiment 是具身智能领域的 "ImageNet 时刻"：

建立了跨具身数据共享的标准和文化
证明了跨具身迁移学习的可行性
为后续通用机器人基础模型提供了数据基础
推动了开源数据生态的建设

6. pi0 — 通用机器人基础模型

pi0: A Vision-Language-Action Flow Model for General Robot Control Black et al., 2024 (Physical Intelligence)

6.1 问题

如何构建一个真正通用的机器人基础模型——能够在多种机器人、多种任务上工作，并且能通过少量数据快速适应新任务？

6.2 架构

pi0 采用双组件架构：

VLM 骨干网络：

基于预训练的视觉语言模型（PaLI-Gemma 3B 变体），处理： - 多视角图像输入 - 自然语言指令 - 本体感受状态

Flow Matching 动作头：

不同于 RT-2 的离散 token 输出，pi0 使用 Flow Matching 生成连续动作。

6.3 Flow Matching

Flow Matching 是扩散模型的替代方案，通过学习一个速度场将噪声分布转换为数据分布：

基本思想：

定义从噪声 \(x_0 \sim \mathcal{N}(0, I)\) 到数据 \(x_1 \sim p_{\text{data}}\) 的线性路径：

\[x_t = (1-t) x_0 + t x_1, \quad t \in [0, 1]\]

对应的速度场为：

\[u_t(x_t) = x_1 - x_0\]

训练目标：

\[\mathcal{L}_{\text{FM}} = \mathbb{E}_{t, x_0, x_1} \left[ \|v_\theta(x_t, t, c) - (x_1 - x_0)\|^2 \right]\]

其中 \(c\) 为条件信息（图像、语言、本体感受），\(v_\theta\) 为神经网络参数化的速度场。

推理（生成动作）：

\[x_1 = x_0 + \int_0^1 v_\theta(x_t, t, c) \, dt\]

通过数值积分（如 Euler 方法）求解 ODE：

\[x_{t+\Delta t} = x_t + v_\theta(x_t, t, c) \cdot \Delta t\]

6.4 相比扩散模型的优势

维度	DDPM 扩散	Flow Matching
路径	随机的（SDE）	确定的（ODE）
训练	预测噪声 \(\epsilon\)	预测速度 \(v\)
采样步数	通常需要 50-1000 步	通常 10-50 步
推理速度	较慢	较快（适合实时控制）
训练稳定性	好	更好

6.5 训练流程

阶段 1：预训练

在大规模跨具身数据上预训练（类似 Open X-Embodiment + 自有数据）

阶段 2：任务微调

在特定任务数据上微调，使用较小的学习率

阶段 3：实时微调

在部署环境中收集少量数据进行快速适应

6.6 关键结果

pi0 在多种任务和机器人上展示了强大的泛化能力：

任务	机器人平台	成功率
叠衣服	双臂 + 灵巧手	高
清理桌面	单臂操作	高
装箱	双臂	高
零样本新物体操作	多种	中高

与基线对比（在操作任务上）：

方法	平均成功率
pi0	最高
Diffusion Policy	次之
RT-2-X	中等
ACT	较低

6.7 意义

pi0 代表了机器人基础模型的最新范式：

VLM 作为"大脑"：利用互联网预训练的知识进行理解和推理
Flow Matching 作为"运动系统"：高效生成平滑的连续动作
预训练-微调范式：大规模预训练 + 任务特定微调
通用性：单一模型适配多种机器人和任务

7. 论文间的技术演进

flowchart TB
    A[SayCan 2022<br/>LLM + 固定技能] --> B[RT-1 2022<br/>大规模学习策略]
    B --> C[RT-2 2023<br/>VLM→VLA 迁移]
    D[Diffusion Policy 2023<br/>生成式策略] --> F[pi0 2024<br/>VLM + Flow Matching]
    C --> E[Open X-Embodiment 2024<br/>跨具身数据]
    E --> F
    C --> F

技术演进主线：

阶段	代表	范式
LLM 辅助	SayCan	LLM 规划 + 预定义技能
大规模学习	RT-1	Transformer + 大数据
知识迁移	RT-2	VLM → VLA
生成式策略	Diffusion Policy	扩散模型生成动作
开放生态	Open X-Embodiment	跨具身数据共享
基础模型	pi0	VLM + Flow Matching + 预训练微调

8. 总结与展望

8.1 共同趋势

规模化：数据规模、模型规模、任务规模持续扩大
统一化：感知、推理、控制逐步统一到单一模型
迁移化：互联网知识 → 机器人，机器人 A → 机器人 B
生成化：从判别式策略到生成式策略

8.2 未解决的问题

安全性：端到端模型的行为如何保证安全？
可解释性：VLA 模型的决策过程如何理解？
数据效率：能否用更少的数据达到同样的性能？
长 horizon：如何处理需要数百步的复杂任务？
具身推理：超越模式匹配的物理推理能力

参考资料

Ahn, M. et al. (2022). "Do As I Can, Not As I Say: Grounding Language in Robotic Affordances"
Brohan, A. et al. (2022). "RT-1: Robotics Transformer for Real-World Control at Scale"
Brohan, A. et al. (2023). "RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control"
Chi, C. et al. (2023). "Diffusion Policy: Visuomotor Policy Learning via Action Diffusion"
Open X-Embodiment Collaboration (2024). "Open X-Embodiment: Robotic Learning Datasets and RT-X Models"
Black, K. et al. (2024). "pi0: A Vision-Language-Action Flow Model for General Robot Control"

相关笔记：