跳转至

VLA模型 (Vision-Language-Action Models)

VLA(Vision-Language-Action)模型是当前具身智能最重要的模型范式之一:接收视觉观测和语言指令,直接输出机器人动作。本文系统梳理 VLA 模型的架构设计、动作表征方式,以及从 RT-1 到 pi0.5 的完整发展脉络。

相关笔记:模型发展路线图 | ACT模型 | 模仿学习 | 扩散策略 | 机器人基础模型概论 | 开源模型汇总

如果你想先看更大范围的模型演化,再回来看 VLA 这条子主线,建议先读 模型发展路线图


1. VLA模型定义

1.1 什么是VLA

VLA模型的核心定义:

\[\pi_\theta: (\mathbf{o}_{\text{visual}}, \mathbf{l}_{\text{language}}) \mapsto \mathbf{a}_{\text{action}}\]

其中:

  • \(\mathbf{o}_{\text{visual}}\):视觉观测(RGB图像、深度图、点云等)
  • \(\mathbf{l}_{\text{language}}\):自然语言任务指令(如"pick up the red cup")
  • \(\mathbf{a}_{\text{action}}\):机器人动作(末端执行器位姿、关节角度等)

VLA与其他范式的区别在于:它不只是用视觉和语言做任务理解,而是直接输出可执行的底层动作,实现端到端的感知-动作映射

1.2 为什么需要VLA

传统的机器人学习方法(如行为克隆)通常只接受特定格式的观测,缺乏语言理解能力。而纯粹的LLM/VLM又无法直接输出机器人动作。VLA将两者统一:

  • 从VLM继承:视觉理解、语言推理、常识知识
  • 新增能力:动作输出、物理交互、实时控制

2. 通用架构

2.1 三大组件

所有VLA模型都遵循一个基本的三组件架构:

graph LR
    subgraph 输入
        IMG[RGB图像] --> VE
        LANG[语言指令] --> LT
        PROP[本体感觉] --> PE
    end

    subgraph 编码
        VE[视觉编码器<br/>ViT / SigLIP / DINOv2]
        LT[语言Tokenizer<br/>SentencePiece / BPE]
        PE[本体编码器<br/>MLP]
    end

    subgraph 骨干网络
        VE --> TF[Transformer骨干<br/>Llama / PaLM / 定制]
        LT --> TF
        PE --> TF
    end

    subgraph 动作输出
        TF --> AH[动作头]
        AH --> ACT[机器人动作<br/>Δx,Δy,Δz,Δrx,Δry,Δrz,gripper]
    end

    style 编码 fill:#e3f2fd
    style 骨干网络 fill:#fff3e0
    style 动作输出 fill:#e8f5e9

视觉编码器的选择:

编码器 预训练方式 参数量 使用模型
ViT-B/16 ImageNet-21K 86M RT-1
ViT-G JFT-4B 1.8B RT-2 (PaLI-X)
SigLIP WebLI对比学习 400M OpenVLA, pi0
DINOv2 自监督 300M HPT

2.2 动作表征方式

VLA模型输出动作的方式是其核心设计选择。目前主要有三种:

(a) 离散Token化

将连续动作空间均匀离散化为token:

\[a_d^{\text{token}} = \text{round}\left(\frac{a_d - a_{\min}}{a_{\max} - a_{\min}} \cdot (K-1)\right), \quad K=256\]

代表:RT-2、OpenVLA

优点:可以直接复用语言模型的token预测机制

缺点:离散化损失精度,难以表达多模态动作分布

(b) 连续回归

动作头直接输出连续值:

\[\hat{\mathbf{a}} = \text{MLP}(\mathbf{h}_{\text{transformer}})\]

训练损失通常为MSE:

\[\mathcal{L} = \|\hat{\mathbf{a}} - \mathbf{a}^*\|^2\]

代表:RT-1、Octo(可选)

优点:简单直接,精度高

缺点:MSE损失假设单模态高斯分布,无法建模多模态动作

(c) 扩散/Flow Matching

用生成模型建模动作分布:

\[\mathbf{a} \sim p_\theta(\mathbf{a} | \mathbf{o}, \mathbf{l})\]

通过迭代去噪或flow matching从噪声中采样动作:

\[\mathbf{a}_1 = \mathbf{a}_0 + \int_0^1 v_\theta(\mathbf{a}_t, t, c) \, dt, \quad \mathbf{a}_0 \sim \mathcal{N}(0, I)\]

代表:pi0、RDT、Octo(扩散头选项)

优点:可以建模复杂的多模态动作分布,精度最高

缺点:推理需要多步去噪,速度较慢

更多关于扩散策略的内容参见:扩散策略


3. 模型发展时间线

3.1 时间线总览

timeline
    title VLA模型发展时间线
    2022 : RT-1 (Google)
         : 首个大规模机器人Transformer
    2023 : RT-2 (Google DeepMind)
         : VLM首次直接输出动作
         : Octo (Berkeley)
         : 开源多具身基础模型
    2024 : OpenVLA (Stanford/Berkeley)
         : 开源7B VLA
         : pi0 (Physical Intelligence)
         : Flow matching动作头
         : GR-1 (Fourier Intelligence)
         : 人形专用VLA
         : HPT (MIT)
         : 异构传感器预训练
         : RDT (Tsinghua)
         : 扩散Transformer双臂操作
    2025 : pi0.5 (Physical Intelligence)
         : 层级任务分解
         : GR-2 (Fourier Intelligence)
         : 世界模型组件

3.2 详细模型卡片

RT-1 (Google, 2022)

  • 架构:EfficientNet-B3视觉编码 + TokenLearner压缩 + Transformer解码
  • 数据:130K真实机器人episodes,700+任务,13台Everyday Robots
  • 动作空间:离散化token(每维256 bins),输出7DoF末端位姿 + 终止信号 + 移动基座
  • 控制频率:3Hz
  • 关键贡献:证明了大规模真实数据训练的Transformer可以泛化到新物体和新指令
  • 局限:仅支持单一机器人平台,泛化仅限于训练分布内

RT-2 (Google DeepMind, 2023)

  • 架构:PaLI-X (55B) 或 PaLM-E (12B) 作为骨干,共微调(co-fine-tuning)
  • 数据:机器人数据 + Web规模视觉-语言数据
  • 动作表征:将动作编码为文本token "1 128 91 241 5 101 127"
  • 关键贡献: - 首次证明VLM可以被微调为VLA - 涌现推理能力:理解"move apple to bowl with matching color" - 符号推理能力:理解语言中的逻辑和关系
  • 局限:模型巨大(55B),推理速度仅1-3Hz

Octo (Berkeley, 2023)

  • 架构:纯Transformer,支持多种观测和动作空间
  • 数据:Open X-Embodiment数据集(800K+ episodes)
  • 动作头:支持连续回归和扩散两种模式
  • 关键贡献: - 首个开源通用机器人基础模型 - 设计了灵活的架构支持不同机器人 - 支持语言和目标图像两种任务指定方式
  • 参数量:93M(Base)

OpenVLA (Stanford/Berkeley, 2024)

  • 架构:Prismatic VLM(SigLIP + DinoV2 双视觉编码器)+ Llama 2 7B
  • 数据:Open X-Embodiment数据集
  • 动作表征:离散化token(256 bins),复用LLM的token预测
  • 关键贡献: - 7B规模的开源VLA,可在消费级GPU上微调 - 证明VLM架构可以有效迁移到机器人控制
  • 微调方式:LoRA高效微调,在新机器人上仅需少量数据

pi0 (Physical Intelligence, 2024)

  • 架构:3B预训练VLM + Flow Matching动作头
  • 数据:跨多种机器人平台的大规模数据集
  • 动作表征:Flow Matching生成连续动作序列(action chunk)
  • 关键贡献: - Flow Matching动作头可建模多模态动作分布 - 跨具身迁移:同一模型控制多种不同机器人 - 动作chunk(一次预测未来多步动作)提升时间一致性
  • 控制频率:约50Hz(GPU推理 + action chunk)

pi0.5 (Physical Intelligence, 2025)

  • 架构:双层结构 — 高层VLM做子任务规划 + 底层pi0做精细控制
  • 关键贡献: - 层级任务分解(Hierarchical Task Decomposition) - 高层模型理解长时间复杂任务 - 底层模型执行精细的操作动作 - 在真实家庭环境中完成端到端的洗衣、清洁等长序列任务

GR-1 (Fourier Intelligence, 2024)

  • 架构:GPT风格的Transformer,同时预测视频帧和动作
  • 数据:人形机器人操作数据 + 人类视频数据
  • 关键贡献: - 首个人形机器人专用的VLA模型 - 视频预测 + 动作预测的多任务学习 - 可以从人类视频中学习,再迁移到人形机器人

GR-2 (Fourier Intelligence, 2025)

  • 架构:3B+参数,包含世界模型组件
  • 关键贡献: - 规模提升至3B+参数 - 引入世界模型组件预测未来视觉状态 - 支持更复杂的人形机器人全身操作

HPT (MIT, 2024)

  • 架构:异构预训练Transformer,统一处理不同维度的传感器输入
  • 关键贡献: - 解决不同机器人传感器维度不一致的问题 - 通过模态对齐层(stem)将异构输入映射到统一空间 - 在Open X-Embodiment + DROID上预训练

RDT (Tsinghua, 2024)

  • 架构:扩散Transformer(DiT风格),专注双臂操作
  • 数据:双臂操作数据集
  • 关键贡献: - 将DiT架构引入机器人动作生成 - 原生支持高维双臂动作空间(14+ DoF) - 扩散过程可以建模双臂协调的复杂动作分布

4. 核心技术深度解析

4.1 动作Chunking

动作chunking是VLA模型的关键技术。不是逐步预测单个动作,而是一次预测未来 \(H\) 步的动作序列:

\[\hat{\mathbf{a}}_{t:t+H} = \pi_\theta(\mathbf{o}_t, \mathbf{l})\]

其中 \(H\) 为chunk大小(通常16-100步)。

好处

  1. 时间一致性:避免逐步预测时的抖动和不连贯
  2. 减少推理调用:每 \(H\) 步才需要一次模型推理
  3. 隐式规划:模型学习了短期内的动作规划

执行策略:通常不是执行完整个chunk再预测,而是每隔 \(k < H\) 步重新预测,通过指数加权平均融合新旧chunk:

\[\mathbf{a}_t^{\text{exec}} = w \cdot \hat{\mathbf{a}}_t^{\text{new}} + (1-w) \cdot \hat{\mathbf{a}}_t^{\text{old}}\]

这条设计路线在具身智能里并不是凭空出现的。它在模型谱系上的关键桥接节点是 ACT模型:ACT 把 chunked action prediction 清晰地变成了一个可复现、可解释的策略范式,后续很多 VLA 的 horizon 设计、动作块推理和时间平滑都能在那条线上找到动机。

4.2 Co-fine-tuning策略

RT-2提出的co-fine-tuning是一个关键训练技巧:

\[\mathcal{L}_{\text{total}} = \lambda_{\text{robot}} \mathcal{L}_{\text{robot}} + \lambda_{\text{web}} \mathcal{L}_{\text{web}}\]

在微调阶段,不完全抛弃原始的VLM训练数据,而是将机器人数据和Web数据混合训练。这样做可以:

  • 保持VLM原有的视觉理解和语言能力
  • 防止灾难性遗忘
  • 让Web知识持续影响机器人策略的学习

4.3 跨具身迁移的挑战

不同机器人之间的关键差异:

差异维度 示例
观测空间 单相机 vs 双相机 vs 腕部相机
动作空间 6DoF末端 vs 7DoF关节 vs 14DoF双臂
动作范围 桌面操作 vs 全身运动
控制频率 3Hz vs 50Hz vs 200Hz
动力学 轻负载 vs 重负载

处理策略:

  1. 动作空间标准化(Octo):将所有动作归一化到统一范围
  2. 模态对齐层(HPT):用可学习的stem将异构输入映射到统一空间
  3. 任务特异微调头:共享主干,针对不同机器人微调输出头

5. 模型对比总结

模型 年份 机构 参数量 动作表征 数据规模 开源
RT-1 2022 Google 35M 离散Token 130K ep
RT-2 2023 Google DeepMind 12-55B 离散Token 130K ep + Web
Octo 2023 Berkeley 93M 连续/扩散 800K+ ep
OpenVLA 2024 Stanford/Berkeley 7B 离散Token 970K+ ep
pi0 2024 Physical Intelligence 3B Flow Matching 大规模
pi0.5 2025 Physical Intelligence 3B+ Flow Matching 大规模
GR-1 2024 Fourier ~1B 连续回归 人形数据 部分
GR-2 2025 Fourier 3B+ 连续回归 人形数据
HPT 2024 MIT ~300M 连续/扩散 多源
RDT 2024 Tsinghua ~1B 扩散 双臂数据

6. 未来趋势

  1. 动作头的演进:从离散token → 连续回归 → 扩散/Flow Matching,趋向更高精度和多模态建模
  2. 层级化设计:pi0.5的高层规划+底层控制范式可能成为主流
  3. 训练效率:LoRA、QLoRA等高效微调方法降低VLA的适配成本
  4. 实时性:模型蒸馏、量化、action chunk等技术提升推理速度
  5. 数据飞轮:VLA部署后收集的数据反哺模型训练,形成正向循环

参考文献

  • Brohan et al., "RT-1: Robotics Transformer for Real-World Control at Scale", RSS 2023
  • Brohan et al., "RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control", CoRL 2023
  • Team et al., "Octo: An Open-Source Generalist Robot Policy", RSS 2024
  • Kim et al., "OpenVLA: An Open-Source Vision-Language-Action Model", 2024
  • Black et al., "pi0: A Vision-Language-Action Flow Model for General Robot Control", 2024
  • Physical Intelligence, "pi0.5: a Vision-Language-Action Model with Open-World Generalization", 2025
  • Wu et al., "GR-1: Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation", 2024
  • Liang et al., "HPT: Heterogeneous Pre-trained Transformers", 2024
  • Liu et al., "RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation", 2024

评论 #