VLA模型 (Vision-Language-Action Models)
VLA(Vision-Language-Action)模型是当前具身智能最重要的模型范式之一:接收视觉观测和语言指令,直接输出机器人动作。本文系统梳理 VLA 模型的架构设计、动作表征方式,以及从 RT-1 到 pi0.5 的完整发展脉络。
相关笔记:模型发展路线图 | ACT模型 | 模仿学习 | 扩散策略 | 机器人基础模型概论 | 开源模型汇总
如果你想先看更大范围的模型演化,再回来看 VLA 这条子主线,建议先读 模型发展路线图。
1. VLA模型定义
1.1 什么是VLA
VLA模型的核心定义:
其中:
- \(\mathbf{o}_{\text{visual}}\):视觉观测(RGB图像、深度图、点云等)
- \(\mathbf{l}_{\text{language}}\):自然语言任务指令(如"pick up the red cup")
- \(\mathbf{a}_{\text{action}}\):机器人动作(末端执行器位姿、关节角度等)
VLA与其他范式的区别在于:它不只是用视觉和语言做任务理解,而是直接输出可执行的底层动作,实现端到端的感知-动作映射。
1.2 为什么需要VLA
传统的机器人学习方法(如行为克隆)通常只接受特定格式的观测,缺乏语言理解能力。而纯粹的LLM/VLM又无法直接输出机器人动作。VLA将两者统一:
- 从VLM继承:视觉理解、语言推理、常识知识
- 新增能力:动作输出、物理交互、实时控制
2. 通用架构
2.1 三大组件
所有VLA模型都遵循一个基本的三组件架构:
graph LR
subgraph 输入
IMG[RGB图像] --> VE
LANG[语言指令] --> LT
PROP[本体感觉] --> PE
end
subgraph 编码
VE[视觉编码器<br/>ViT / SigLIP / DINOv2]
LT[语言Tokenizer<br/>SentencePiece / BPE]
PE[本体编码器<br/>MLP]
end
subgraph 骨干网络
VE --> TF[Transformer骨干<br/>Llama / PaLM / 定制]
LT --> TF
PE --> TF
end
subgraph 动作输出
TF --> AH[动作头]
AH --> ACT[机器人动作<br/>Δx,Δy,Δz,Δrx,Δry,Δrz,gripper]
end
style 编码 fill:#e3f2fd
style 骨干网络 fill:#fff3e0
style 动作输出 fill:#e8f5e9
视觉编码器的选择:
| 编码器 | 预训练方式 | 参数量 | 使用模型 |
|---|---|---|---|
| ViT-B/16 | ImageNet-21K | 86M | RT-1 |
| ViT-G | JFT-4B | 1.8B | RT-2 (PaLI-X) |
| SigLIP | WebLI对比学习 | 400M | OpenVLA, pi0 |
| DINOv2 | 自监督 | 300M | HPT |
2.2 动作表征方式
VLA模型输出动作的方式是其核心设计选择。目前主要有三种:
(a) 离散Token化
将连续动作空间均匀离散化为token:
代表:RT-2、OpenVLA
优点:可以直接复用语言模型的token预测机制
缺点:离散化损失精度,难以表达多模态动作分布
(b) 连续回归
动作头直接输出连续值:
训练损失通常为MSE:
代表:RT-1、Octo(可选)
优点:简单直接,精度高
缺点:MSE损失假设单模态高斯分布,无法建模多模态动作
(c) 扩散/Flow Matching
用生成模型建模动作分布:
通过迭代去噪或flow matching从噪声中采样动作:
代表:pi0、RDT、Octo(扩散头选项)
优点:可以建模复杂的多模态动作分布,精度最高
缺点:推理需要多步去噪,速度较慢
更多关于扩散策略的内容参见:扩散策略
3. 模型发展时间线
3.1 时间线总览
timeline
title VLA模型发展时间线
2022 : RT-1 (Google)
: 首个大规模机器人Transformer
2023 : RT-2 (Google DeepMind)
: VLM首次直接输出动作
: Octo (Berkeley)
: 开源多具身基础模型
2024 : OpenVLA (Stanford/Berkeley)
: 开源7B VLA
: pi0 (Physical Intelligence)
: Flow matching动作头
: GR-1 (Fourier Intelligence)
: 人形专用VLA
: HPT (MIT)
: 异构传感器预训练
: RDT (Tsinghua)
: 扩散Transformer双臂操作
2025 : pi0.5 (Physical Intelligence)
: 层级任务分解
: GR-2 (Fourier Intelligence)
: 世界模型组件
3.2 详细模型卡片
RT-1 (Google, 2022)
- 架构:EfficientNet-B3视觉编码 + TokenLearner压缩 + Transformer解码
- 数据:130K真实机器人episodes,700+任务,13台Everyday Robots
- 动作空间:离散化token(每维256 bins),输出7DoF末端位姿 + 终止信号 + 移动基座
- 控制频率:3Hz
- 关键贡献:证明了大规模真实数据训练的Transformer可以泛化到新物体和新指令
- 局限:仅支持单一机器人平台,泛化仅限于训练分布内
RT-2 (Google DeepMind, 2023)
- 架构:PaLI-X (55B) 或 PaLM-E (12B) 作为骨干,共微调(co-fine-tuning)
- 数据:机器人数据 + Web规模视觉-语言数据
- 动作表征:将动作编码为文本token
"1 128 91 241 5 101 127" - 关键贡献: - 首次证明VLM可以被微调为VLA - 涌现推理能力:理解"move apple to bowl with matching color" - 符号推理能力:理解语言中的逻辑和关系
- 局限:模型巨大(55B),推理速度仅1-3Hz
Octo (Berkeley, 2023)
- 架构:纯Transformer,支持多种观测和动作空间
- 数据:Open X-Embodiment数据集(800K+ episodes)
- 动作头:支持连续回归和扩散两种模式
- 关键贡献: - 首个开源通用机器人基础模型 - 设计了灵活的架构支持不同机器人 - 支持语言和目标图像两种任务指定方式
- 参数量:93M(Base)
OpenVLA (Stanford/Berkeley, 2024)
- 架构:Prismatic VLM(SigLIP + DinoV2 双视觉编码器)+ Llama 2 7B
- 数据:Open X-Embodiment数据集
- 动作表征:离散化token(256 bins),复用LLM的token预测
- 关键贡献: - 7B规模的开源VLA,可在消费级GPU上微调 - 证明VLM架构可以有效迁移到机器人控制
- 微调方式:LoRA高效微调,在新机器人上仅需少量数据
pi0 (Physical Intelligence, 2024)
- 架构:3B预训练VLM + Flow Matching动作头
- 数据:跨多种机器人平台的大规模数据集
- 动作表征:Flow Matching生成连续动作序列(action chunk)
- 关键贡献: - Flow Matching动作头可建模多模态动作分布 - 跨具身迁移:同一模型控制多种不同机器人 - 动作chunk(一次预测未来多步动作)提升时间一致性
- 控制频率:约50Hz(GPU推理 + action chunk)
pi0.5 (Physical Intelligence, 2025)
- 架构:双层结构 — 高层VLM做子任务规划 + 底层pi0做精细控制
- 关键贡献: - 层级任务分解(Hierarchical Task Decomposition) - 高层模型理解长时间复杂任务 - 底层模型执行精细的操作动作 - 在真实家庭环境中完成端到端的洗衣、清洁等长序列任务
GR-1 (Fourier Intelligence, 2024)
- 架构:GPT风格的Transformer,同时预测视频帧和动作
- 数据:人形机器人操作数据 + 人类视频数据
- 关键贡献: - 首个人形机器人专用的VLA模型 - 视频预测 + 动作预测的多任务学习 - 可以从人类视频中学习,再迁移到人形机器人
GR-2 (Fourier Intelligence, 2025)
- 架构:3B+参数,包含世界模型组件
- 关键贡献: - 规模提升至3B+参数 - 引入世界模型组件预测未来视觉状态 - 支持更复杂的人形机器人全身操作
HPT (MIT, 2024)
- 架构:异构预训练Transformer,统一处理不同维度的传感器输入
- 关键贡献: - 解决不同机器人传感器维度不一致的问题 - 通过模态对齐层(stem)将异构输入映射到统一空间 - 在Open X-Embodiment + DROID上预训练
RDT (Tsinghua, 2024)
- 架构:扩散Transformer(DiT风格),专注双臂操作
- 数据:双臂操作数据集
- 关键贡献: - 将DiT架构引入机器人动作生成 - 原生支持高维双臂动作空间(14+ DoF) - 扩散过程可以建模双臂协调的复杂动作分布
4. 核心技术深度解析
4.1 动作Chunking
动作chunking是VLA模型的关键技术。不是逐步预测单个动作,而是一次预测未来 \(H\) 步的动作序列:
其中 \(H\) 为chunk大小(通常16-100步)。
好处:
- 时间一致性:避免逐步预测时的抖动和不连贯
- 减少推理调用:每 \(H\) 步才需要一次模型推理
- 隐式规划:模型学习了短期内的动作规划
执行策略:通常不是执行完整个chunk再预测,而是每隔 \(k < H\) 步重新预测,通过指数加权平均融合新旧chunk:
这条设计路线在具身智能里并不是凭空出现的。它在模型谱系上的关键桥接节点是 ACT模型:ACT 把 chunked action prediction 清晰地变成了一个可复现、可解释的策略范式,后续很多 VLA 的 horizon 设计、动作块推理和时间平滑都能在那条线上找到动机。
4.2 Co-fine-tuning策略
RT-2提出的co-fine-tuning是一个关键训练技巧:
在微调阶段,不完全抛弃原始的VLM训练数据,而是将机器人数据和Web数据混合训练。这样做可以:
- 保持VLM原有的视觉理解和语言能力
- 防止灾难性遗忘
- 让Web知识持续影响机器人策略的学习
4.3 跨具身迁移的挑战
不同机器人之间的关键差异:
| 差异维度 | 示例 |
|---|---|
| 观测空间 | 单相机 vs 双相机 vs 腕部相机 |
| 动作空间 | 6DoF末端 vs 7DoF关节 vs 14DoF双臂 |
| 动作范围 | 桌面操作 vs 全身运动 |
| 控制频率 | 3Hz vs 50Hz vs 200Hz |
| 动力学 | 轻负载 vs 重负载 |
处理策略:
- 动作空间标准化(Octo):将所有动作归一化到统一范围
- 模态对齐层(HPT):用可学习的stem将异构输入映射到统一空间
- 任务特异微调头:共享主干,针对不同机器人微调输出头
5. 模型对比总结
| 模型 | 年份 | 机构 | 参数量 | 动作表征 | 数据规模 | 开源 |
|---|---|---|---|---|---|---|
| RT-1 | 2022 | 35M | 离散Token | 130K ep | 否 | |
| RT-2 | 2023 | Google DeepMind | 12-55B | 离散Token | 130K ep + Web | 否 |
| Octo | 2023 | Berkeley | 93M | 连续/扩散 | 800K+ ep | 是 |
| OpenVLA | 2024 | Stanford/Berkeley | 7B | 离散Token | 970K+ ep | 是 |
| pi0 | 2024 | Physical Intelligence | 3B | Flow Matching | 大规模 | 是 |
| pi0.5 | 2025 | Physical Intelligence | 3B+ | Flow Matching | 大规模 | 否 |
| GR-1 | 2024 | Fourier | ~1B | 连续回归 | 人形数据 | 部分 |
| GR-2 | 2025 | Fourier | 3B+ | 连续回归 | 人形数据 | 否 |
| HPT | 2024 | MIT | ~300M | 连续/扩散 | 多源 | 是 |
| RDT | 2024 | Tsinghua | ~1B | 扩散 | 双臂数据 | 是 |
6. 未来趋势
- 动作头的演进:从离散token → 连续回归 → 扩散/Flow Matching,趋向更高精度和多模态建模
- 层级化设计:pi0.5的高层规划+底层控制范式可能成为主流
- 训练效率:LoRA、QLoRA等高效微调方法降低VLA的适配成本
- 实时性:模型蒸馏、量化、action chunk等技术提升推理速度
- 数据飞轮:VLA部署后收集的数据反哺模型训练,形成正向循环
参考文献:
- Brohan et al., "RT-1: Robotics Transformer for Real-World Control at Scale", RSS 2023
- Brohan et al., "RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control", CoRL 2023
- Team et al., "Octo: An Open-Source Generalist Robot Policy", RSS 2024
- Kim et al., "OpenVLA: An Open-Source Vision-Language-Action Model", 2024
- Black et al., "pi0: A Vision-Language-Action Flow Model for General Robot Control", 2024
- Physical Intelligence, "pi0.5: a Vision-Language-Action Model with Open-World Generalization", 2025
- Wu et al., "GR-1: Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation", 2024
- Liang et al., "HPT: Heterogeneous Pre-trained Transformers", 2024
- Liu et al., "RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation", 2024