RT-2 / OpenVLA
最后更新:2026-04-24
RT-2(Google DeepMind 2023-07)和 OpenVLA(Stanford / Toyota Research 2024-06)是 机器人 VLA(Vision-Language-Action)的学术奠基之作——第一批把 LLM 风格 VLM 与机器人动作直接对齐的模型。RT-2 是 Google 未开源里程碑,OpenVLA 开源后成为学术 baseline。
一、产品定位
RT-2 / OpenVLA = "VLA 学术开山之作" —— 证明 VLM 微调 + 机器人动作 token = VLA 这条路线可行。π0、GR00T、Helix 等都是其延续。OpenVLA 开源让全球研究可复现。
二、核心能力与架构
RT-2(Google DeepMind,2023-07,未开源)
- 基于 PaLI-X / PaLM-E 改造
- 动作作为 text tokens(离散化)
- 论文声名远播但无代码
OpenVLA(Stanford / TRI,2024-06,开源)
- 7B 参数,基于 Llama 2 + DINOv2 + SigLIP
- Open X-Embodiment 数据(97 万 episodes)
- 完全开源 + 可 fine-tune
三、版本与路线图
| 时间 | 版本 |
|---|---|
| 2022-10 | RT-1(开源) |
| 2023-07 | RT-2 发布(未开源) |
| 2024-06 | OpenVLA 开源 |
| 2024-Q4 | OpenVLA-0.5(改进) |
| 2025 | 生态延续(π0 / GR00T 接棒) |
四、定价与商业化
- 全部免费 / 开源
- 学术研究用为主
- Google 未商业化 RT-2
五、用户反馈
- "VLA 第一代开源 baseline" —— 学术广泛使用
- Hugging Face 下载上百万
- 批:性能已被 π0 / GR00T N1 超越,但历史意义大
六、竞品对比
| 维度 | RT-2 | OpenVLA | π0 | GR00T N1 |
|---|---|---|---|---|
| 开源 | ❌ | ✅ | 部分 | ✅ |
| 参数 | 55B | 7B | 3.3B | 2B |
| 数据 | RT-1 + Web | Open X-Embodiment | 7 机器人 68 任务 | 多来源 |
| 时代 | 2023 | 2024 | 2024-2025 | 2025 |
| 主要用户 | Google 内部 | 学术 baseline | 研究 + 工业 | 开源生态 |
七、使用笔记
- OpenVLA 适合学习 VLA 的第一站
- RT-2 论文是教科书级 reference
- 2026 实用首选 π0 / GR00T N1