机器人基础模型概论
基础模型(Foundation Model)在 NLP 和视觉领域取得了巨大成功,自然引发了一个问题:能否用同样的范式来构建通用的机器人智能? 本文梳理当前机器人基础模型的三大范式、Scaling Laws 的探索,以及跨具身迁移的最新进展。
相关笔记:模型发展路线图 | VLA模型 | 大模型驱动的机器人 | 开源模型汇总
如果你想先看整个板块的演化脉络,而不是直接进入“三大范式”,建议先读 模型发展路线图。
1. 为什么需要机器人基础模型
1.1 传统方法的瓶颈
传统机器人学习方法存在几个核心问题:
- 任务特异性:每个任务需要单独训练一个策略,无法跨任务泛化
- 数据效率低:每个新环境都需要从零采集数据
- 具身绑定:为特定机器人训练的策略无法迁移到其他硬件平台
1.2 基础模型的优势
基础模型(Foundation Model)的核心假设是:
具体到机器人领域,基础模型可以带来:
| 特性 | 传统方法 | 基础模型方法 |
|---|---|---|
| 泛化能力 | 单任务单环境 | 跨任务、跨环境 |
| 数据利用 | 仅用本任务数据 | 多来源数据联合训练 |
| 跨具身迁移 | 不支持 | 部分支持 |
| 语言理解 | 不具备 | 自然语言指令跟随 |
| 新任务适配 | 从头训练 | 少样本/零样本 |
2. 三大范式
当前机器人基础模型的研究可以归纳为三大范式。每种范式在抽象层级、模态融合深度、动作输出方式上有本质差异。
范式总览架构图
graph TB
subgraph 范式A["范式A: LLM作为高层规划器"]
A1[自然语言指令] --> A2[LLM/VLM规划器]
A2 --> A3[子任务序列]
A3 --> A4[底层技能策略]
A4 --> A5[机器人动作]
A6[环境反馈] --> A2
end
subgraph 范式B["范式B: VLM微调输出动作"]
B1[图像 + 语言指令] --> B2[预训练VLM骨干]
B2 --> B3[动作Token解码]
B3 --> B5[机器人动作]
end
subgraph 范式C["范式C: 专用机器人基础模型"]
C1[多模态传感器输入] --> C2[专用编码器]
C2 --> C3[统一Transformer骨干]
C3 --> C4[动作头/扩散头]
C4 --> C5[连续机器人动作]
end
style 范式A fill:#e1f5fe
style 范式B fill:#f3e5f5
style 范式C fill:#e8f5e9
2.1 范式A:LLM作为高层规划器
核心思想:将大语言模型作为"大脑",负责任务理解、推理和子任务分解,底层的运动控制交给预训练好的技能策略。
代表工作:
- SayCan(Google, 2022):将LLM的语言概率与机器人的可行性(affordance)分数相乘,选择可执行的子任务
- Code as Policies(Liang et al., 2023):LLM直接生成Python代码调用机器人API
- Inner Monologue(Google, 2022):引入感知反馈闭环,让LLM根据执行结果动态调整计划
数学形式:
SayCan中,给定语言指令 \(l\) 和候选技能集合 \(\{c_i\}\),选择下一个执行的技能:
其中 \(s\) 为当前环境状态。
优点:
- 利用LLM的强大推理和常识知识
- 不需要端到端训练,模块化设计
- 容易引入人类反馈
缺点:
- 依赖预定义的底层技能库
- LLM与物理世界之间存在"接地"(grounding)鸿沟
- 推理延迟高,不适合实时控制
更多细节参见:大模型驱动的机器人
2.2 范式B:VLM微调输出动作
核心思想:在预训练的视觉-语言模型(VLM)基础上,直接微调使其输出机器人动作。将动作视为一种"语言",用token的形式表示。
代表工作:
- RT-2(Google DeepMind, 2023):在PaLI-X(55B)和PaLM-E(12B)上共微调,将动作离散化为256个bin的token序列
- OpenVLA(Stanford/Berkeley, 2024):基于Prismatic VLM + Llama 2 7B,开源VLA
动作Token化:
RT-2将连续动作空间离散化。对于每个维度的动作 \(a_d \in [a_{\min}, a_{\max}]\),均匀划分为 \(K=256\) 个bin:
输出格式:"1 128 91 241 5 101 127" — 分别对应xyz平移、rpy旋转和夹爪开合。
优点:
- 继承VLM的视觉理解和语言推理能力
- 端到端训练,无需手动设计中间表征
- 可以利用大规模互联网数据预训练的知识
缺点:
- 动作离散化损失精度
- 模型参数量大(数十亿),推理速度慢
- 对精细操作任务(如插入、缝合)效果有限
2.3 范式C:专用机器人基础模型
核心思想:不沿用通用VLM的架构,而是从机器人数据的特性出发,设计专门的模型架构和训练流程。
代表工作:
- Octo(Berkeley, 2023):开源多具身Transformer,支持多种传感器输入和动作空间
- pi0(Physical Intelligence, 2024):采用flow matching动作头,支持连续动作输出
- HPT(MIT, 2024):异构传感器输入的统一预训练
动作头设计的数学形式:
pi0使用Flow Matching作为动作头。给定条件 \(c\)(视觉+语言特征),学习一个向量场 \(v_\theta\) 将噪声分布映射到动作分布:
其中 \(\mathbf{a}_0 \sim \mathcal{N}(0, I)\) 为初始噪声,\(\mathbf{a}_1\) 为预测的动作序列。
训练目标(Conditional Flow Matching Loss):
其中 \(\mathbf{a}_t = (1-t)\mathbf{a}_0 + t\mathbf{a}_1\) 为线性插值路径。
优点:
- 可以输出连续动作,精度高
- 模型架构可针对机器人数据特性优化
- 支持多模态传感器输入
缺点:
- 需要大量机器人数据预训练
- 缺少通用VLM的丰富语义理解
3. Scaling Laws:数据量与性能
3.1 RT系列的演进
Google DeepMind的RT系列是探索机器人Scaling Laws的先驱:
graph LR
A["RT-1 (2022)"] -->|"规模提升"| B["RT-2 (2023)"]
B -->|"数据多样化"| C["RT-X (2023)"]
A1["130K episodes<br/>700+ tasks<br/>13 robots"] --> A
B1["PaLI-X 55B + PaLM-E 12B<br/>Web数据共训练<br/>涌现推理能力"] --> B
C1["Open X-Embodiment<br/>1M+ episodes<br/>22 robot types<br/>160K+ tasks"] --> C
3.2 关键发现
RT-1 到 RT-2 的跃迁:
| 维度 | RT-1 | RT-2 |
|---|---|---|
| 模型规模 | 35M参数 | 12B-55B参数 |
| 训练数据 | 130K机器人episodes | 机器人数据 + Web数据 |
| 任务数 | 700+ | 700+(同) |
| 泛化能力 | 见过的物体/场景 | 未见过的物体(涌现) |
| 推理能力 | 无 | 可以理解"把苹果移到同色碗中" |
| 控制频率 | 3Hz | 1-3Hz |
RT-2最重要的发现是涌现能力(emergent capabilities):通过在Web规模视觉-语言数据上预训练,模型获得了机器人数据中从未出现过的推理能力,例如理解"把瓶子移到Taylor Swift的国家的国旗旁"。
3.3 数据规模是否足够?
当前机器人数据规模与语言模型数据规模的巨大差距:
| 领域 | 数据规模 | Token/样本量 |
|---|---|---|
| GPT-4 | ~13T tokens | ~13,000,000M |
| ImageNet | 14M图像 | - |
| Open X-Embodiment | 1M+ episodes | ~数百万 |
| 单个实验室 | 1K-100K episodes | - |
差距在 3-4个数量级 以上。这引发了几个关键问题:
- 机器人领域是否存在类似语言模型的Scaling Law? — 初步证据表明数据量增加确实提升泛化,但幂律关系尚未确立
- Web数据能否弥补机器人数据的不足? — RT-2的实验表明可以,但物理交互的精细程度仍然受限
- 仿真数据是否有效? — Sim-to-Real的gap仍然是主要挑战
4. Open X-Embodiment:跨具身数据集
4.1 概述
Open X-Embodiment(Google DeepMind主导,2023)是目前最大的跨具身机器人数据集:
- 数据规模:超过100万episodes
- 机器人类型:22种不同的机器人形态
- 任务数量:160,000+种不同的任务描述
- 贡献机构:来自21个机构的33个数据集
4.2 数据多样性的架构图
graph TB
OXE[Open X-Embodiment Dataset]
OXE --> R1[单臂桌面机器人]
OXE --> R2[双臂操作平台]
OXE --> R3[移动操作机器人]
OXE --> R4[灵巧手]
R1 --> D1[Bridge V2<br/>60K episodes]
R1 --> D2[RT-1 Data<br/>130K episodes]
R2 --> D3[ALOHA Data]
R3 --> D4[Kuka Data]
R4 --> D5[DROID Data]
OXE --> Format[统一RLDS格式]
Format --> F1[observation: 图像+本体感觉]
Format --> F2[action: 末端执行器位姿]
Format --> F3[language_instruction: 文本]
4.3 关键结论
Open X-Embodiment的实验揭示了几个重要结论:
- 正迁移(Positive Transfer):在混合多具身数据上训练的RT-X模型,在大多数单独具身上的表现优于仅用该具身数据训练的模型
- 数据多样性 > 数据量:相比单纯增加同一个机器人的数据量,增加不同机器人的数据对泛化更有帮助
- 统一动作空间的挑战:不同机器人的动作空间差异巨大(关节空间 vs 末端执行器空间,不同自由度),需要设计统一的动作表征
5. 未来展望
5.1 开放问题
- 动作的通用表征:如何设计一个统一的动作空间,使得不同形态的机器人可以共享同一个模型?
- 实时性:当前大模型推理速度(1-10Hz)远低于机器人控制的需求(100-1000Hz),如何解决?
- 安全性:基础模型的黑盒特性如何与机器人安全约束结合?
- 数据飞轮:如何构建自动化数据收集 → 模型训练 → 部署 → 数据收集的闭环?
5.2 三范式融合趋势
graph TB
T1["2022: 各范式独立发展"] --> T2["2023-2024: 范式B+C融合"]
T2 --> T3["2025+: 三范式融合"]
T3 --> F1["高层: LLM推理与规划"]
T3 --> F2["中层: VLM理解与接地"]
T3 --> F3["底层: 专用动作模型"]
F1 <--> F2
F2 <--> F3
从pi0.5(Physical Intelligence, 2025)可以看到这种趋势:高层用语言模型做任务分解,中层用VLM理解场景,底层用flow matching模型输出精细动作。这可能是未来机器人基础模型的主流架构方向。
6. 总结
| 对比维度 | 范式A(LLM规划) | 范式B(VLM微调) | 范式C(专用基础模型) |
|---|---|---|---|
| 代表模型 | SayCan, Code as Policies | RT-2, OpenVLA | Octo, pi0, HPT |
| 动作输出 | 调用底层API | 离散Token | 连续值/扩散采样 |
| 控制精度 | 低(依赖底层) | 中 | 高 |
| 推理能力 | 强 | 中-强 | 弱-中 |
| 控制频率 | <1Hz | 1-3Hz | 5-50Hz |
| 数据需求 | 少(利用预训练) | 中(微调) | 大(预训练) |
| 开源程度 | 高 | 中 | 中-高 |
机器人基础模型仍处于早期阶段,但三大范式正在快速发展和融合。关键的推动力包括:更大规模的跨具身数据集、更高效的模型架构、以及仿真到真实的迁移技术。
参考文献:
- Brohan et al., "RT-1: Robotics Transformer for Real-World Control at Scale", 2022
- Brohan et al., "RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control", 2023
- Open X-Embodiment Collaboration, "Open X-Embodiment: Robotic Learning Datasets and RT-X Models", 2023
- Black et al., "pi0: A Vision-Language-Action Flow Model for General Robot Control", 2024
- Team et al., "Octo: An Open-Source Generalist Robot Policy", 2023
- Bommasani et al., "On the Opportunities and Risks of Foundation Models", 2021