机器人基础模型概论

基础模型（Foundation Model）在 NLP 和视觉领域取得了巨大成功，自然引发了一个问题：能否用同样的范式来构建通用的机器人智能？ 本文梳理当前机器人基础模型的三大范式、Scaling Laws 的探索，以及跨具身迁移的最新进展。

相关笔记：模型发展路线图 | VLA模型 | 大模型驱动的机器人 | 开源模型汇总

如果你想先看整个板块的演化脉络，而不是直接进入“三大范式”，建议先读模型发展路线图。

1. 为什么需要机器人基础模型

1.1 传统方法的瓶颈

传统机器人学习方法存在几个核心问题：

任务特异性：每个任务需要单独训练一个策略，无法跨任务泛化
数据效率低：每个新环境都需要从零采集数据
具身绑定：为特定机器人训练的策略无法迁移到其他硬件平台

1.2 基础模型的优势

基础模型（Foundation Model）的核心假设是：

\[\text{大规模预训练} + \text{少量微调} \rightarrow \text{下游任务泛化}\]

具体到机器人领域，基础模型可以带来：

特性	传统方法	基础模型方法
泛化能力	单任务单环境	跨任务、跨环境
数据利用	仅用本任务数据	多来源数据联合训练
跨具身迁移	不支持	部分支持
语言理解	不具备	自然语言指令跟随
新任务适配	从头训练	少样本/零样本

2. 三大范式

当前机器人基础模型的研究可以归纳为三大范式。每种范式在抽象层级、模态融合深度、动作输出方式上有本质差异。

范式总览架构图

graph TB
    subgraph 范式A["范式A: LLM作为高层规划器"]
        A1[自然语言指令] --> A2[LLM/VLM规划器]
        A2 --> A3[子任务序列]
        A3 --> A4[底层技能策略]
        A4 --> A5[机器人动作]
        A6[环境反馈] --> A2
    end

    subgraph 范式B["范式B: VLM微调输出动作"]
        B1[图像 + 语言指令] --> B2[预训练VLM骨干]
        B2 --> B3[动作Token解码]
        B3 --> B5[机器人动作]
    end

    subgraph 范式C["范式C: 专用机器人基础模型"]
        C1[多模态传感器输入] --> C2[专用编码器]
        C2 --> C3[统一Transformer骨干]
        C3 --> C4[动作头/扩散头]
        C4 --> C5[连续机器人动作]
    end

    style 范式A fill:#e1f5fe
    style 范式B fill:#f3e5f5
    style 范式C fill:#e8f5e9

2.1 范式A：LLM作为高层规划器

核心思想：将大语言模型作为"大脑"，负责任务理解、推理和子任务分解，底层的运动控制交给预训练好的技能策略。

代表工作：

SayCan（Google, 2022）：将LLM的语言概率与机器人的可行性（affordance）分数相乘，选择可执行的子任务
Code as Policies（Liang et al., 2023）：LLM直接生成Python代码调用机器人API
Inner Monologue（Google, 2022）：引入感知反馈闭环，让LLM根据执行结果动态调整计划

数学形式：

SayCan中，给定语言指令 \(l\) 和候选技能集合 \(\{c_i\}\)，选择下一个执行的技能：

\[c^* = \arg\max_{c_i} \underbrace{p(c_i | l)}_{\text{语言模型评分}} \cdot \underbrace{p(\text{success} | c_i, s)}_{\text{可行性评分（affordance）}}\]

其中 \(s\) 为当前环境状态。

优点：

利用LLM的强大推理和常识知识
不需要端到端训练，模块化设计
容易引入人类反馈

缺点：

依赖预定义的底层技能库
LLM与物理世界之间存在"接地"（grounding）鸿沟
推理延迟高，不适合实时控制

更多细节参见：大模型驱动的机器人

2.2 范式B：VLM微调输出动作

核心思想：在预训练的视觉-语言模型（VLM）基础上，直接微调使其输出机器人动作。将动作视为一种"语言"，用token的形式表示。

代表工作：

RT-2（Google DeepMind, 2023）：在PaLI-X（55B）和PaLM-E（12B）上共微调，将动作离散化为256个bin的token序列
OpenVLA（Stanford/Berkeley, 2024）：基于Prismatic VLM + Llama 2 7B，开源VLA

动作Token化：

RT-2将连续动作空间离散化。对于每个维度的动作 \(a_d \in [a_{\min}, a_{\max}]\)，均匀划分为 \(K=256\) 个bin：

\[\text{token}(a_d) = \left\lfloor \frac{a_d - a_{\min}}{a_{\max} - a_{\min}} \cdot (K-1) \right\rfloor\]

输出格式："1 128 91 241 5 101 127" — 分别对应xyz平移、rpy旋转和夹爪开合。

优点：

继承VLM的视觉理解和语言推理能力
端到端训练，无需手动设计中间表征
可以利用大规模互联网数据预训练的知识

缺点：

动作离散化损失精度
模型参数量大（数十亿），推理速度慢
对精细操作任务（如插入、缝合）效果有限

2.3 范式C：专用机器人基础模型

核心思想：不沿用通用VLM的架构，而是从机器人数据的特性出发，设计专门的模型架构和训练流程。

代表工作：

Octo（Berkeley, 2023）：开源多具身Transformer，支持多种传感器输入和动作空间
pi0（Physical Intelligence, 2024）：采用flow matching动作头，支持连续动作输出
HPT（MIT, 2024）：异构传感器输入的统一预训练

动作头设计的数学形式：

pi0使用Flow Matching作为动作头。给定条件 \(c\)（视觉+语言特征），学习一个向量场 \(v_\theta\) 将噪声分布映射到动作分布：

\[\frac{d\mathbf{a}_t}{dt} = v_\theta(\mathbf{a}_t, t, c), \quad t \in [0, 1]\]

其中 \(\mathbf{a}_0 \sim \mathcal{N}(0, I)\) 为初始噪声，\(\mathbf{a}_1\) 为预测的动作序列。

训练目标（Conditional Flow Matching Loss）：

\[\mathcal{L}_{\text{CFM}} = \mathbb{E}_{t, \mathbf{a}_0, \mathbf{a}_1}\left[\| v_\theta(\mathbf{a}_t, t, c) - (\mathbf{a}_1 - \mathbf{a}_0) \|^2\right]\]

其中 \(\mathbf{a}_t = (1-t)\mathbf{a}_0 + t\mathbf{a}_1\) 为线性插值路径。

优点：

可以输出连续动作，精度高
模型架构可针对机器人数据特性优化
支持多模态传感器输入

缺点：

需要大量机器人数据预训练
缺少通用VLM的丰富语义理解

3. Scaling Laws：数据量与性能

3.1 RT系列的演进

Google DeepMind的RT系列是探索机器人Scaling Laws的先驱：

graph LR
    A["RT-1 (2022)"] -->|"规模提升"| B["RT-2 (2023)"]
    B -->|"数据多样化"| C["RT-X (2023)"]

    A1["130K episodes<br/>700+ tasks<br/>13 robots"] --> A
    B1["PaLI-X 55B + PaLM-E 12B<br/>Web数据共训练<br/>涌现推理能力"] --> B
    C1["Open X-Embodiment<br/>1M+ episodes<br/>22 robot types<br/>160K+ tasks"] --> C

3.2 关键发现

RT-1 到 RT-2 的跃迁：

维度	RT-1	RT-2
模型规模	35M参数	12B-55B参数
训练数据	130K机器人episodes	机器人数据 + Web数据
任务数	700+	700+（同）
泛化能力	见过的物体/场景	未见过的物体（涌现）
推理能力	无	可以理解"把苹果移到同色碗中"
控制频率	3Hz	1-3Hz

RT-2最重要的发现是涌现能力（emergent capabilities）：通过在Web规模视觉-语言数据上预训练，模型获得了机器人数据中从未出现过的推理能力，例如理解"把瓶子移到Taylor Swift的国家的国旗旁"。

3.3 数据规模是否足够？

当前机器人数据规模与语言模型数据规模的巨大差距：

领域	数据规模	Token/样本量
GPT-4	~13T tokens	~13,000,000M
ImageNet	14M图像	-
Open X-Embodiment	1M+ episodes	~数百万
单个实验室	1K-100K episodes	-

差距在 3-4个数量级 以上。这引发了几个关键问题：

机器人领域是否存在类似语言模型的Scaling Law？ — 初步证据表明数据量增加确实提升泛化，但幂律关系尚未确立
Web数据能否弥补机器人数据的不足？ — RT-2的实验表明可以，但物理交互的精细程度仍然受限
仿真数据是否有效？ — Sim-to-Real的gap仍然是主要挑战

4. Open X-Embodiment：跨具身数据集

4.1 概述

Open X-Embodiment（Google DeepMind主导，2023）是目前最大的跨具身机器人数据集：

数据规模：超过100万episodes
机器人类型：22种不同的机器人形态
任务数量：160,000+种不同的任务描述
贡献机构：来自21个机构的33个数据集

4.2 数据多样性的架构图

graph TB
    OXE[Open X-Embodiment Dataset]

    OXE --> R1[单臂桌面机器人]
    OXE --> R2[双臂操作平台]
    OXE --> R3[移动操作机器人]
    OXE --> R4[灵巧手]

    R1 --> D1[Bridge V2<br/>60K episodes]
    R1 --> D2[RT-1 Data<br/>130K episodes]
    R2 --> D3[ALOHA Data]
    R3 --> D4[Kuka Data]
    R4 --> D5[DROID Data]

    OXE --> Format[统一RLDS格式]
    Format --> F1[observation: 图像+本体感觉]
    Format --> F2[action: 末端执行器位姿]
    Format --> F3[language_instruction: 文本]

4.3 关键结论

Open X-Embodiment的实验揭示了几个重要结论：

正迁移（Positive Transfer）：在混合多具身数据上训练的RT-X模型，在大多数单独具身上的表现优于仅用该具身数据训练的模型
数据多样性 > 数据量：相比单纯增加同一个机器人的数据量，增加不同机器人的数据对泛化更有帮助
统一动作空间的挑战：不同机器人的动作空间差异巨大（关节空间 vs 末端执行器空间，不同自由度），需要设计统一的动作表征

5. 未来展望

5.1 开放问题

动作的通用表征：如何设计一个统一的动作空间，使得不同形态的机器人可以共享同一个模型？
实时性：当前大模型推理速度（1-10Hz）远低于机器人控制的需求（100-1000Hz），如何解决？
安全性：基础模型的黑盒特性如何与机器人安全约束结合？
数据飞轮：如何构建自动化数据收集 → 模型训练 → 部署 → 数据收集的闭环？

5.2 三范式融合趋势

graph TB
    T1["2022: 各范式独立发展"] --> T2["2023-2024: 范式B+C融合"]
    T2 --> T3["2025+: 三范式融合"]

    T3 --> F1["高层: LLM推理与规划"]
    T3 --> F2["中层: VLM理解与接地"]
    T3 --> F3["底层: 专用动作模型"]

    F1 <--> F2
    F2 <--> F3

从pi0.5（Physical Intelligence, 2025）可以看到这种趋势：高层用语言模型做任务分解，中层用VLM理解场景，底层用flow matching模型输出精细动作。这可能是未来机器人基础模型的主流架构方向。

6. 总结

对比维度	范式A（LLM规划）	范式B（VLM微调）	范式C（专用基础模型）
代表模型	SayCan, Code as Policies	RT-2, OpenVLA	Octo, pi0, HPT
动作输出	调用底层API	离散Token	连续值/扩散采样
控制精度	低（依赖底层）	中	高
推理能力	强	中-强	弱-中
控制频率	<1Hz	1-3Hz	5-50Hz
数据需求	少（利用预训练）	中（微调）	大（预训练）
开源程度	高	中	中-高

机器人基础模型仍处于早期阶段，但三大范式正在快速发展和融合。关键的推动力包括：更大规模的跨具身数据集、更高效的模型架构、以及仿真到真实的迁移技术。

参考文献：

Brohan et al., "RT-1: Robotics Transformer for Real-World Control at Scale", 2022
Brohan et al., "RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control", 2023
Open X-Embodiment Collaboration, "Open X-Embodiment: Robotic Learning Datasets and RT-X Models", 2023
Black et al., "pi0: A Vision-Language-Action Flow Model for General Robot Control", 2024
Team et al., "Octo: An Open-Source Generalist Robot Policy", 2023
Bommasani et al., "On the Opportunities and Risks of Foundation Models", 2021

机器人基础模型概论

1. 为什么需要机器人基础模型

1.1 传统方法的瓶颈

1.2 基础模型的优势

2. 三大范式

范式总览架构图

2.1 范式A：LLM作为高层规划器

2.2 范式B：VLM微调输出动作

2.3 范式C：专用机器人基础模型

3. Scaling Laws：数据量与性能

3.1 RT系列的演进

3.2 关键发现

3.3 数据规模是否足够？

4. Open X-Embodiment：跨具身数据集

4.1 概述

4.2 数据多样性的架构图

4.3 关键结论

5. 未来展望

5.1 开放问题

5.2 三范式融合趋势

6. 总结

评论 #