跳转至

机器人基础模型概论

基础模型(Foundation Model)在 NLP 和视觉领域取得了巨大成功,自然引发了一个问题:能否用同样的范式来构建通用的机器人智能? 本文梳理当前机器人基础模型的三大范式、Scaling Laws 的探索,以及跨具身迁移的最新进展。

相关笔记:模型发展路线图 | VLA模型 | 大模型驱动的机器人 | 开源模型汇总

如果你想先看整个板块的演化脉络,而不是直接进入“三大范式”,建议先读 模型发展路线图


1. 为什么需要机器人基础模型

1.1 传统方法的瓶颈

传统机器人学习方法存在几个核心问题:

  • 任务特异性:每个任务需要单独训练一个策略,无法跨任务泛化
  • 数据效率低:每个新环境都需要从零采集数据
  • 具身绑定:为特定机器人训练的策略无法迁移到其他硬件平台

1.2 基础模型的优势

基础模型(Foundation Model)的核心假设是:

\[\text{大规模预训练} + \text{少量微调} \rightarrow \text{下游任务泛化}\]

具体到机器人领域,基础模型可以带来:

特性 传统方法 基础模型方法
泛化能力 单任务单环境 跨任务、跨环境
数据利用 仅用本任务数据 多来源数据联合训练
跨具身迁移 不支持 部分支持
语言理解 不具备 自然语言指令跟随
新任务适配 从头训练 少样本/零样本

2. 三大范式

当前机器人基础模型的研究可以归纳为三大范式。每种范式在抽象层级、模态融合深度、动作输出方式上有本质差异。

范式总览架构图

graph TB
    subgraph 范式A["范式A: LLM作为高层规划器"]
        A1[自然语言指令] --> A2[LLM/VLM规划器]
        A2 --> A3[子任务序列]
        A3 --> A4[底层技能策略]
        A4 --> A5[机器人动作]
        A6[环境反馈] --> A2
    end

    subgraph 范式B["范式B: VLM微调输出动作"]
        B1[图像 + 语言指令] --> B2[预训练VLM骨干]
        B2 --> B3[动作Token解码]
        B3 --> B5[机器人动作]
    end

    subgraph 范式C["范式C: 专用机器人基础模型"]
        C1[多模态传感器输入] --> C2[专用编码器]
        C2 --> C3[统一Transformer骨干]
        C3 --> C4[动作头/扩散头]
        C4 --> C5[连续机器人动作]
    end

    style 范式A fill:#e1f5fe
    style 范式B fill:#f3e5f5
    style 范式C fill:#e8f5e9

2.1 范式A:LLM作为高层规划器

核心思想:将大语言模型作为"大脑",负责任务理解、推理和子任务分解,底层的运动控制交给预训练好的技能策略。

代表工作

  • SayCan(Google, 2022):将LLM的语言概率与机器人的可行性(affordance)分数相乘,选择可执行的子任务
  • Code as Policies(Liang et al., 2023):LLM直接生成Python代码调用机器人API
  • Inner Monologue(Google, 2022):引入感知反馈闭环,让LLM根据执行结果动态调整计划

数学形式

SayCan中,给定语言指令 \(l\) 和候选技能集合 \(\{c_i\}\),选择下一个执行的技能:

\[c^* = \arg\max_{c_i} \underbrace{p(c_i | l)}_{\text{语言模型评分}} \cdot \underbrace{p(\text{success} | c_i, s)}_{\text{可行性评分(affordance)}}\]

其中 \(s\) 为当前环境状态。

优点

  • 利用LLM的强大推理和常识知识
  • 不需要端到端训练,模块化设计
  • 容易引入人类反馈

缺点

  • 依赖预定义的底层技能库
  • LLM与物理世界之间存在"接地"(grounding)鸿沟
  • 推理延迟高,不适合实时控制

更多细节参见:大模型驱动的机器人

2.2 范式B:VLM微调输出动作

核心思想:在预训练的视觉-语言模型(VLM)基础上,直接微调使其输出机器人动作。将动作视为一种"语言",用token的形式表示。

代表工作

  • RT-2(Google DeepMind, 2023):在PaLI-X(55B)和PaLM-E(12B)上共微调,将动作离散化为256个bin的token序列
  • OpenVLA(Stanford/Berkeley, 2024):基于Prismatic VLM + Llama 2 7B,开源VLA

动作Token化

RT-2将连续动作空间离散化。对于每个维度的动作 \(a_d \in [a_{\min}, a_{\max}]\),均匀划分为 \(K=256\) 个bin:

\[\text{token}(a_d) = \left\lfloor \frac{a_d - a_{\min}}{a_{\max} - a_{\min}} \cdot (K-1) \right\rfloor\]

输出格式:"1 128 91 241 5 101 127" — 分别对应xyz平移、rpy旋转和夹爪开合。

优点

  • 继承VLM的视觉理解和语言推理能力
  • 端到端训练,无需手动设计中间表征
  • 可以利用大规模互联网数据预训练的知识

缺点

  • 动作离散化损失精度
  • 模型参数量大(数十亿),推理速度慢
  • 对精细操作任务(如插入、缝合)效果有限

2.3 范式C:专用机器人基础模型

核心思想:不沿用通用VLM的架构,而是从机器人数据的特性出发,设计专门的模型架构和训练流程。

代表工作

  • Octo(Berkeley, 2023):开源多具身Transformer,支持多种传感器输入和动作空间
  • pi0(Physical Intelligence, 2024):采用flow matching动作头,支持连续动作输出
  • HPT(MIT, 2024):异构传感器输入的统一预训练

动作头设计的数学形式

pi0使用Flow Matching作为动作头。给定条件 \(c\)(视觉+语言特征),学习一个向量场 \(v_\theta\) 将噪声分布映射到动作分布:

\[\frac{d\mathbf{a}_t}{dt} = v_\theta(\mathbf{a}_t, t, c), \quad t \in [0, 1]\]

其中 \(\mathbf{a}_0 \sim \mathcal{N}(0, I)\) 为初始噪声,\(\mathbf{a}_1\) 为预测的动作序列。

训练目标(Conditional Flow Matching Loss):

\[\mathcal{L}_{\text{CFM}} = \mathbb{E}_{t, \mathbf{a}_0, \mathbf{a}_1}\left[\| v_\theta(\mathbf{a}_t, t, c) - (\mathbf{a}_1 - \mathbf{a}_0) \|^2\right]\]

其中 \(\mathbf{a}_t = (1-t)\mathbf{a}_0 + t\mathbf{a}_1\) 为线性插值路径。

优点

  • 可以输出连续动作,精度高
  • 模型架构可针对机器人数据特性优化
  • 支持多模态传感器输入

缺点

  • 需要大量机器人数据预训练
  • 缺少通用VLM的丰富语义理解

3. Scaling Laws:数据量与性能

3.1 RT系列的演进

Google DeepMind的RT系列是探索机器人Scaling Laws的先驱:

graph LR
    A["RT-1 (2022)"] -->|"规模提升"| B["RT-2 (2023)"]
    B -->|"数据多样化"| C["RT-X (2023)"]

    A1["130K episodes<br/>700+ tasks<br/>13 robots"] --> A
    B1["PaLI-X 55B + PaLM-E 12B<br/>Web数据共训练<br/>涌现推理能力"] --> B
    C1["Open X-Embodiment<br/>1M+ episodes<br/>22 robot types<br/>160K+ tasks"] --> C

3.2 关键发现

RT-1 到 RT-2 的跃迁

维度 RT-1 RT-2
模型规模 35M参数 12B-55B参数
训练数据 130K机器人episodes 机器人数据 + Web数据
任务数 700+ 700+(同)
泛化能力 见过的物体/场景 未见过的物体(涌现)
推理能力 可以理解"把苹果移到同色碗中"
控制频率 3Hz 1-3Hz

RT-2最重要的发现是涌现能力(emergent capabilities):通过在Web规模视觉-语言数据上预训练,模型获得了机器人数据中从未出现过的推理能力,例如理解"把瓶子移到Taylor Swift的国家的国旗旁"。

3.3 数据规模是否足够?

当前机器人数据规模与语言模型数据规模的巨大差距:

领域 数据规模 Token/样本量
GPT-4 ~13T tokens ~13,000,000M
ImageNet 14M图像 -
Open X-Embodiment 1M+ episodes ~数百万
单个实验室 1K-100K episodes -

差距在 3-4个数量级 以上。这引发了几个关键问题:

  1. 机器人领域是否存在类似语言模型的Scaling Law? — 初步证据表明数据量增加确实提升泛化,但幂律关系尚未确立
  2. Web数据能否弥补机器人数据的不足? — RT-2的实验表明可以,但物理交互的精细程度仍然受限
  3. 仿真数据是否有效? — Sim-to-Real的gap仍然是主要挑战

4. Open X-Embodiment:跨具身数据集

4.1 概述

Open X-Embodiment(Google DeepMind主导,2023)是目前最大的跨具身机器人数据集:

  • 数据规模:超过100万episodes
  • 机器人类型:22种不同的机器人形态
  • 任务数量:160,000+种不同的任务描述
  • 贡献机构:来自21个机构的33个数据集

4.2 数据多样性的架构图

graph TB
    OXE[Open X-Embodiment Dataset]

    OXE --> R1[单臂桌面机器人]
    OXE --> R2[双臂操作平台]
    OXE --> R3[移动操作机器人]
    OXE --> R4[灵巧手]

    R1 --> D1[Bridge V2<br/>60K episodes]
    R1 --> D2[RT-1 Data<br/>130K episodes]
    R2 --> D3[ALOHA Data]
    R3 --> D4[Kuka Data]
    R4 --> D5[DROID Data]

    OXE --> Format[统一RLDS格式]
    Format --> F1[observation: 图像+本体感觉]
    Format --> F2[action: 末端执行器位姿]
    Format --> F3[language_instruction: 文本]

4.3 关键结论

Open X-Embodiment的实验揭示了几个重要结论:

  1. 正迁移(Positive Transfer):在混合多具身数据上训练的RT-X模型,在大多数单独具身上的表现优于仅用该具身数据训练的模型
  2. 数据多样性 > 数据量:相比单纯增加同一个机器人的数据量,增加不同机器人的数据对泛化更有帮助
  3. 统一动作空间的挑战:不同机器人的动作空间差异巨大(关节空间 vs 末端执行器空间,不同自由度),需要设计统一的动作表征

5. 未来展望

5.1 开放问题

  • 动作的通用表征:如何设计一个统一的动作空间,使得不同形态的机器人可以共享同一个模型?
  • 实时性:当前大模型推理速度(1-10Hz)远低于机器人控制的需求(100-1000Hz),如何解决?
  • 安全性:基础模型的黑盒特性如何与机器人安全约束结合?
  • 数据飞轮:如何构建自动化数据收集 → 模型训练 → 部署 → 数据收集的闭环?

5.2 三范式融合趋势

graph TB
    T1["2022: 各范式独立发展"] --> T2["2023-2024: 范式B+C融合"]
    T2 --> T3["2025+: 三范式融合"]

    T3 --> F1["高层: LLM推理与规划"]
    T3 --> F2["中层: VLM理解与接地"]
    T3 --> F3["底层: 专用动作模型"]

    F1 <--> F2
    F2 <--> F3

从pi0.5(Physical Intelligence, 2025)可以看到这种趋势:高层用语言模型做任务分解,中层用VLM理解场景,底层用flow matching模型输出精细动作。这可能是未来机器人基础模型的主流架构方向。


6. 总结

对比维度 范式A(LLM规划) 范式B(VLM微调) 范式C(专用基础模型)
代表模型 SayCan, Code as Policies RT-2, OpenVLA Octo, pi0, HPT
动作输出 调用底层API 离散Token 连续值/扩散采样
控制精度 低(依赖底层)
推理能力 中-强 弱-中
控制频率 <1Hz 1-3Hz 5-50Hz
数据需求 少(利用预训练) 中(微调) 大(预训练)
开源程度 中-高

机器人基础模型仍处于早期阶段,但三大范式正在快速发展和融合。关键的推动力包括:更大规模的跨具身数据集、更高效的模型架构、以及仿真到真实的迁移技术。


参考文献

  • Brohan et al., "RT-1: Robotics Transformer for Real-World Control at Scale", 2022
  • Brohan et al., "RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control", 2023
  • Open X-Embodiment Collaboration, "Open X-Embodiment: Robotic Learning Datasets and RT-X Models", 2023
  • Black et al., "pi0: A Vision-Language-Action Flow Model for General Robot Control", 2024
  • Team et al., "Octo: An Open-Source Generalist Robot Policy", 2023
  • Bommasani et al., "On the Opportunities and Risks of Foundation Models", 2021

评论 #