VLA模型 (Vision-Language-Action Models)

VLA（Vision-Language-Action）模型是当前具身智能最重要的模型范式之一：接收视觉观测和语言指令，直接输出机器人动作。本文系统梳理 VLA 模型的架构设计、动作表征方式，以及从 RT-1 到 pi0.5 的完整发展脉络。

相关笔记：模型发展路线图 | ACT模型 | 模仿学习 | 扩散策略 | 机器人基础模型概论 | 开源模型汇总

如果你想先看更大范围的模型演化，再回来看 VLA 这条子主线，建议先读模型发展路线图。

1. VLA模型定义

1.1 什么是VLA

VLA模型的核心定义：

\[\pi_\theta: (\mathbf{o}_{\text{visual}}, \mathbf{l}_{\text{language}}) \mapsto \mathbf{a}_{\text{action}}\]

其中：

\(\mathbf{o}_{\text{visual}}\)：视觉观测（RGB图像、深度图、点云等）
\(\mathbf{l}_{\text{language}}\)：自然语言任务指令（如"pick up the red cup"）
\(\mathbf{a}_{\text{action}}\)：机器人动作（末端执行器位姿、关节角度等）

VLA与其他范式的区别在于：它不只是用视觉和语言做任务理解，而是直接输出可执行的底层动作，实现端到端的感知-动作映射。

1.2 为什么需要VLA

传统的机器人学习方法（如行为克隆）通常只接受特定格式的观测，缺乏语言理解能力。而纯粹的LLM/VLM又无法直接输出机器人动作。VLA将两者统一：

从VLM继承：视觉理解、语言推理、常识知识
新增能力：动作输出、物理交互、实时控制

2. 通用架构

2.1 三大组件

所有VLA模型都遵循一个基本的三组件架构：

graph LR
    subgraph 输入
        IMG[RGB图像] --> VE
        LANG[语言指令] --> LT
        PROP[本体感觉] --> PE
    end

    subgraph 编码
        VE[视觉编码器<br/>ViT / SigLIP / DINOv2]
        LT[语言Tokenizer<br/>SentencePiece / BPE]
        PE[本体编码器<br/>MLP]
    end

    subgraph 骨干网络
        VE --> TF[Transformer骨干<br/>Llama / PaLM / 定制]
        LT --> TF
        PE --> TF
    end

    subgraph 动作输出
        TF --> AH[动作头]
        AH --> ACT[机器人动作<br/>Δx,Δy,Δz,Δrx,Δry,Δrz,gripper]
    end

    style 编码 fill:#e3f2fd
    style 骨干网络 fill:#fff3e0
    style 动作输出 fill:#e8f5e9

视觉编码器的选择：

编码器	预训练方式	参数量	使用模型
ViT-B/16	ImageNet-21K	86M	RT-1
ViT-G	JFT-4B	1.8B	RT-2 (PaLI-X)
SigLIP	WebLI对比学习	400M	OpenVLA, pi0
DINOv2	自监督	300M	HPT

2.2 动作表征方式

VLA模型输出动作的方式是其核心设计选择。目前主要有三种：

(a) 离散Token化

将连续动作空间均匀离散化为token：

\[a_d^{\text{token}} = \text{round}\left(\frac{a_d - a_{\min}}{a_{\max} - a_{\min}} \cdot (K-1)\right), \quad K=256\]

代表：RT-2、OpenVLA

优点：可以直接复用语言模型的token预测机制

缺点：离散化损失精度，难以表达多模态动作分布

(b) 连续回归

动作头直接输出连续值：

\[\hat{\mathbf{a}} = \text{MLP}(\mathbf{h}_{\text{transformer}})\]

训练损失通常为MSE：

\[\mathcal{L} = \|\hat{\mathbf{a}} - \mathbf{a}^*\|^2\]

代表：RT-1、Octo（可选）

优点：简单直接，精度高

缺点：MSE损失假设单模态高斯分布，无法建模多模态动作

(c) 扩散/Flow Matching

用生成模型建模动作分布：

\[\mathbf{a} \sim p_\theta(\mathbf{a} | \mathbf{o}, \mathbf{l})\]

通过迭代去噪或flow matching从噪声中采样动作：

\[\mathbf{a}_1 = \mathbf{a}_0 + \int_0^1 v_\theta(\mathbf{a}_t, t, c) \, dt, \quad \mathbf{a}_0 \sim \mathcal{N}(0, I)\]

代表：pi0、RDT、Octo（扩散头选项）

优点：可以建模复杂的多模态动作分布，精度最高

缺点：推理需要多步去噪，速度较慢

更多关于扩散策略的内容参见：扩散策略

3. 模型发展时间线

3.1 时间线总览

timeline
    title VLA模型发展时间线
    2022 : RT-1 (Google)
         : 首个大规模机器人Transformer
    2023 : RT-2 (Google DeepMind)
         : VLM首次直接输出动作
         : Octo (Berkeley)
         : 开源多具身基础模型
    2024 : OpenVLA (Stanford/Berkeley)
         : 开源7B VLA
         : pi0 (Physical Intelligence)
         : Flow matching动作头
         : GR-1 (Fourier Intelligence)
         : 人形专用VLA
         : HPT (MIT)
         : 异构传感器预训练
         : RDT (Tsinghua)
         : 扩散Transformer双臂操作
    2025 : pi0.5 (Physical Intelligence)
         : 层级任务分解
         : GR-2 (Fourier Intelligence)
         : 世界模型组件

3.2 详细模型卡片

RT-1 (Google, 2022)

架构：EfficientNet-B3视觉编码 + TokenLearner压缩 + Transformer解码
数据：130K真实机器人episodes，700+任务，13台Everyday Robots
动作空间：离散化token（每维256 bins），输出7DoF末端位姿 + 终止信号 + 移动基座
控制频率：3Hz
关键贡献：证明了大规模真实数据训练的Transformer可以泛化到新物体和新指令
局限：仅支持单一机器人平台，泛化仅限于训练分布内

RT-2 (Google DeepMind, 2023)

架构：PaLI-X (55B) 或 PaLM-E (12B) 作为骨干，共微调（co-fine-tuning）
数据：机器人数据 + Web规模视觉-语言数据
动作表征：将动作编码为文本token "1 128 91 241 5 101 127"
关键贡献： - 首次证明VLM可以被微调为VLA - 涌现推理能力：理解"move apple to bowl with matching color" - 符号推理能力：理解语言中的逻辑和关系
局限：模型巨大（55B），推理速度仅1-3Hz

Octo (Berkeley, 2023)

架构：纯Transformer，支持多种观测和动作空间
数据：Open X-Embodiment数据集（800K+ episodes）
动作头：支持连续回归和扩散两种模式
关键贡献： - 首个开源通用机器人基础模型 - 设计了灵活的架构支持不同机器人 - 支持语言和目标图像两种任务指定方式
参数量：93M（Base）

OpenVLA (Stanford/Berkeley, 2024)

架构：Prismatic VLM（SigLIP + DinoV2 双视觉编码器）+ Llama 2 7B
数据：Open X-Embodiment数据集
动作表征：离散化token（256 bins），复用LLM的token预测
关键贡献： - 7B规模的开源VLA，可在消费级GPU上微调 - 证明VLM架构可以有效迁移到机器人控制
微调方式：LoRA高效微调，在新机器人上仅需少量数据

pi0 (Physical Intelligence, 2024)

架构：3B预训练VLM + Flow Matching动作头
数据：跨多种机器人平台的大规模数据集
动作表征：Flow Matching生成连续动作序列（action chunk）
关键贡献： - Flow Matching动作头可建模多模态动作分布 - 跨具身迁移：同一模型控制多种不同机器人 - 动作chunk（一次预测未来多步动作）提升时间一致性
控制频率：约50Hz（GPU推理 + action chunk）

pi0.5 (Physical Intelligence, 2025)

架构：双层结构 — 高层VLM做子任务规划 + 底层pi0做精细控制
关键贡献： - 层级任务分解（Hierarchical Task Decomposition） - 高层模型理解长时间复杂任务 - 底层模型执行精细的操作动作 - 在真实家庭环境中完成端到端的洗衣、清洁等长序列任务

GR-1 (Fourier Intelligence, 2024)

架构：GPT风格的Transformer，同时预测视频帧和动作
数据：人形机器人操作数据 + 人类视频数据
关键贡献： - 首个人形机器人专用的VLA模型 - 视频预测 + 动作预测的多任务学习 - 可以从人类视频中学习，再迁移到人形机器人

GR-2 (Fourier Intelligence, 2025)

架构：3B+参数，包含世界模型组件
关键贡献： - 规模提升至3B+参数 - 引入世界模型组件预测未来视觉状态 - 支持更复杂的人形机器人全身操作

HPT (MIT, 2024)

架构：异构预训练Transformer，统一处理不同维度的传感器输入
关键贡献： - 解决不同机器人传感器维度不一致的问题 - 通过模态对齐层（stem）将异构输入映射到统一空间 - 在Open X-Embodiment + DROID上预训练

RDT (Tsinghua, 2024)

架构：扩散Transformer（DiT风格），专注双臂操作
数据：双臂操作数据集
关键贡献： - 将DiT架构引入机器人动作生成 - 原生支持高维双臂动作空间（14+ DoF） - 扩散过程可以建模双臂协调的复杂动作分布

4. 核心技术深度解析

4.1 动作Chunking

动作chunking是VLA模型的关键技术。不是逐步预测单个动作，而是一次预测未来 \(H\) 步的动作序列：

\[\hat{\mathbf{a}}_{t:t+H} = \pi_\theta(\mathbf{o}_t, \mathbf{l})\]

其中 \(H\) 为chunk大小（通常16-100步）。

好处：

时间一致性：避免逐步预测时的抖动和不连贯
减少推理调用：每 \(H\) 步才需要一次模型推理
隐式规划：模型学习了短期内的动作规划

执行策略：通常不是执行完整个chunk再预测，而是每隔 \(k < H\) 步重新预测，通过指数加权平均融合新旧chunk：

\[\mathbf{a}_t^{\text{exec}} = w \cdot \hat{\mathbf{a}}_t^{\text{new}} + (1-w) \cdot \hat{\mathbf{a}}_t^{\text{old}}\]

这条设计路线在具身智能里并不是凭空出现的。它在模型谱系上的关键桥接节点是 ACT模型：ACT 把 chunked action prediction 清晰地变成了一个可复现、可解释的策略范式，后续很多 VLA 的 horizon 设计、动作块推理和时间平滑都能在那条线上找到动机。

4.2 Co-fine-tuning策略

RT-2提出的co-fine-tuning是一个关键训练技巧：

\[\mathcal{L}_{\text{total}} = \lambda_{\text{robot}} \mathcal{L}_{\text{robot}} + \lambda_{\text{web}} \mathcal{L}_{\text{web}}\]

在微调阶段，不完全抛弃原始的VLM训练数据，而是将机器人数据和Web数据混合训练。这样做可以：

保持VLM原有的视觉理解和语言能力
防止灾难性遗忘
让Web知识持续影响机器人策略的学习

4.3 跨具身迁移的挑战

不同机器人之间的关键差异：

差异维度	示例
观测空间	单相机 vs 双相机 vs 腕部相机
动作空间	6DoF末端 vs 7DoF关节 vs 14DoF双臂
动作范围	桌面操作 vs 全身运动
控制频率	3Hz vs 50Hz vs 200Hz
动力学	轻负载 vs 重负载

处理策略：

动作空间标准化（Octo）：将所有动作归一化到统一范围
模态对齐层（HPT）：用可学习的stem将异构输入映射到统一空间
任务特异微调头：共享主干，针对不同机器人微调输出头

5. 模型对比总结

模型	年份	机构	参数量	动作表征	数据规模	开源
RT-1	2022	Google	35M	离散Token	130K ep	否
RT-2	2023	Google DeepMind	12-55B	离散Token	130K ep + Web	否
Octo	2023	Berkeley	93M	连续/扩散	800K+ ep	是
OpenVLA	2024	Stanford/Berkeley	7B	离散Token	970K+ ep	是
pi0	2024	Physical Intelligence	3B	Flow Matching	大规模	是
pi0.5	2025	Physical Intelligence	3B+	Flow Matching	大规模	否
GR-1	2024	Fourier	~1B	连续回归	人形数据	部分
GR-2	2025	Fourier	3B+	连续回归	人形数据	否
HPT	2024	MIT	~300M	连续/扩散	多源	是
RDT	2024	Tsinghua	~1B	扩散	双臂数据	是

6. 未来趋势

动作头的演进：从离散token → 连续回归 → 扩散/Flow Matching，趋向更高精度和多模态建模
层级化设计：pi0.5的高层规划+底层控制范式可能成为主流
训练效率：LoRA、QLoRA等高效微调方法降低VLA的适配成本
实时性：模型蒸馏、量化、action chunk等技术提升推理速度
数据飞轮：VLA部署后收集的数据反哺模型训练，形成正向循环

参考文献：

Brohan et al., "RT-1: Robotics Transformer for Real-World Control at Scale", RSS 2023
Brohan et al., "RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control", CoRL 2023
Team et al., "Octo: An Open-Source Generalist Robot Policy", RSS 2024
Kim et al., "OpenVLA: An Open-Source Vision-Language-Action Model", 2024
Black et al., "pi0: A Vision-Language-Action Flow Model for General Robot Control", 2024
Physical Intelligence, "pi0.5: a Vision-Language-Action Model with Open-World Generalization", 2025
Wu et al., "GR-1: Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation", 2024
Liang et al., "HPT: Heterogeneous Pre-trained Transformers", 2024
Liu et al., "RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation", 2024