模型发展路线图
具身智能里的“模型”并不是一条单线演化出来的。它同时沿着两条主轴推进:
- 一条是时间线:从经典模仿学习到序列建模、再到 VLA、世界模型和 agentic planning。
- 一条是范式谱系:从“学动作”到“学分布”,再到“学语言+视觉+动作统一表示”,最后走向“学世界并在世界中规划”。
这篇笔记的作用不是替代单篇模型笔记,而是给整个 05_Models 板块补上一张总地图。读完之后,你应该知道:
- 机器人模型经历了哪些阶段。
- ACT 在整个谱系里的位置是什么。
- VLA、Diffusion Policy、世界模型和 LLM 规划分别属于哪条支线。
- 下一步该先读哪篇。
1. 为什么需要一张模型发展路线图
如果只按“论文时间”来记模型,很容易产生两个误解:
- 误以为新模型一定全面替代旧模型
- 误以为所有工作都在同一条技术线上竞争
但真实情况是:
- ACT 不是 foundation model,却是
action chunking路线的关键桥梁 - Diffusion Policy 不是 VLA,却定义了“生成式动作建模”这条强支线
- RT-2 / OpenVLA / pi0 属于 VLA 主线,但动作头设计并不相同
- SayCan / Code as Policies 主要解决的是规划与接口,而不是底层动作生成
- Dreamer / UniSim / Cosmos 更接近“世界建模”和“想象中训练”
所以,最合理的组织方式不是只看时间,也不是只看类别,而是把时间线和范式谱系一起看。
2. 两条主轴:时间线与范式谱系
2.1 时间线看什么
时间线回答的是:关键拐点何时出现,后来工作是在延续哪种思想。
2.2 范式谱系看什么
范式谱系回答的是:一个模型主要解决哪一层问题。
| 维度 | 典型问题 | 代表模型 |
|---|---|---|
| 经典策略学习 | 如何从示教里学动作 | BC, DAgger, GAIL |
| 序列/生成式策略 | 如何建模多步、多模态动作 | Decision Transformer, BeT, ACT, Diffusion Policy |
| VLA / 机器人基础模型 | 如何统一视觉、语言与动作 | RT-1, RT-2, Octo, OpenVLA, pi0 |
| 世界模型 | 如何预测未来并在模型中训练 | Dreamer, UniSim, Genie, Cosmos |
| 大模型规划 | 如何做长程推理、子任务分解、API 调用 | SayCan, Code as Policies, VoxPoser |
3. 第一阶段:经典机器人学习模型
这条线的核心目标是:先让机器人学会从数据模仿动作。
典型代表:
- BC:把策略学习直接变成监督学习
- DAgger:解决部署时的分布偏移
- IRL / MaxEnt IRL:从演示反推奖励
- GAIL:把模仿学习写成对抗训练
这一阶段的特征是:
- 任务通常较窄
- 数据规模较小
- 模型以“学单步动作映射”为主
- 语言和跨任务泛化基本不强
这类内容主要放在 模仿学习。
4. 第二阶段:序列建模与生成式策略
当研究者发现“单步回归动作”会遇到抖动、多模态、长时序误差累积时,第二阶段出现了。
4.1 这条线的核心转变
从:
转向:
也就是不再只预测当前一步,而是开始预测一个动作序列,或者直接建模动作分布。
4.2 代表模型
- Decision Transformer:把控制写成序列建模
- BeT:用离散 latent action token 建模行为
- ACT:用
CVAE + Transformer做 action chunk prediction - Diffusion Policy:用扩散模型建模多模态动作分布
4.3 为什么 ACT 是桥接节点
ACT 的重要性不在于它是最大的模型,而在于它把下面这条思路清晰地建立起来了:
graph LR
IL[经典模仿学习] --> CHUNK[Action Chunking]
CHUNK --> ACT[ACT]
ACT --> GEN[生成式动作建模]
GEN --> DP[Diffusion Policy / RDT]
ACT --> VLA_HEAD[后续 VLA 的 chunk / token / horizon 设计]
VLA_HEAD --> OPENVLA[OpenVLA / pi0 / FAST]
style ACT fill:#e8f5e9
style CHUNK fill:#fff3e0
style VLA_HEAD fill:#e3f2fd
也就是说,ACT 连接的是:
如果只读 VLA 而不理解 ACT,很多“为什么要做 chunk、为什么不逐步出动作”的设计动机就会缺一半。
5. 第三阶段:VLA 与机器人基础模型
这一阶段的核心问题变成了:
能不能把视觉、语言和动作统一到同一模型里,并利用 web-scale 预训练获得跨任务泛化?
5.1 代表主线
- RT-1:大规模真实机器人数据训练的 Robotics Transformer
- RT-2:把 VLM 微调成 VLA,证明 web knowledge 可以迁入机器人控制
- Octo:开源、多具身、通用动作接口
- OpenVLA:开源 7B VLA,推动社区复现
- HPT:异构传感器和跨具身输入的统一
- RDT:扩散 Transformer 做双臂高维动作生成
- pi0:flow matching 风格的 VLA 主线
5.2 这一阶段的关键变化
| 变化 | 早期策略模型 | VLA / 基础模型阶段 |
|---|---|---|
| 输入 | 状态、少量图像 | 多视角视觉 + 语言 + 本体感觉 |
| 数据 | 单任务或单机器人 | 多任务、多机器人、多来源 |
| 目标 | 学单一技能 | 学通用视觉-语言-动作映射 |
| 输出 | 单步或短时序动作 | token / chunk / diffusion / flow |
| 泛化来源 | 演示覆盖 | 预训练 + 多具身数据 + 微调 |
6. 第四阶段:世界模型与可想象训练
当动作模型越来越强之后,研究焦点进一步上移:
如果模型不仅会出动作,还会预测“未来会发生什么”,是不是可以先在模型中试错?
这条线的代表包括:
- Dreamer 系:在 latent world model 中训练策略
- UniSim:用可生成的世界替代大量真实交互
- Genie / 交互式视频世界模型:从视频中学可交互动态
- Cosmos / Genesis:把大规模视频生成、仿真和物理 AI 数据结合起来
这一阶段的重点不再只是“给我一个动作”,而是:
- 预测未来视觉状态
- 预测潜在动力学
- 在 imagined rollouts 中评估或训练策略
对应笔记是 世界模型与视频生成。
7. 第五阶段:大模型规划与具身 Agent
还有一条并行主线,它不直接优化低层动作,而是研究:
如何让大模型做长程任务理解、工具调用、子任务分解和接口编排。
代表工作:
- SayCan:LLM 概率与 affordance 分数联合选技能
- Code as Policies:直接生成程序调用机器人接口
- VoxPoser:让大模型通过 3D 价值图与空间表示来驱动操作
这条线和 VLA 不是替代关系,而是层级关系:
- VLA 更像底层统一策略
- LLM agent 更像高层规划器
对应笔记是 大模型驱动的机器人。
8. 关键技术拐点
下面这些技术拐点,基本定义了近几年的演化方向:
| 技术拐点 | 解决的问题 | 代表工作 |
|---|---|---|
| 动作离散化 | 让 LLM/VLM 直接出动作 token | RT-1, RT-2, OpenVLA |
| Action chunking | 减少抖动、提升时间一致性 | ACT, pi0 |
| 扩散 / Flow Matching | 建模多模态连续动作分布 | Diffusion Policy, RDT, pi0 |
| Web pretraining | 引入语义知识与推理能力 | RT-2, OpenVLA, pi0 |
| Cross-embodiment | 一个模型覆盖多机器人 | Octo, HPT, OpenVLA |
| Open-source training stack | 降低复现与微调门槛 | Octo, OpenVLA, LeRobot |
| High-frequency action tokenization | 让更快控制也能走 token 路线 | FAST, 新一代 tokenized policy |
其中 ACT 的历史地位 可以概括成一句话:
它不是终局 foundation model,但它把“短时序动作块作为主要建模对象”这件事做成了清晰范式。
9. 2022-2026 时间线总图
timeline
title 机器人模型发展路线图(2022-2026)
2022 : RT-1
: SayCan
: 经典大模型规划开始进入机器人
2023 : RT-2
: Octo
: ACT
: Diffusion Policy
: 序列建模、生成式策略与 VLA 主线同时加速
2024 : OpenVLA
: pi0
: HPT
: RDT-1B
: Genie / Cosmos / Genesis 方向升温
2025 : pi0.5
: FAST
: 层级 VLA 与动作 tokenization 持续演进
2026 : 当前重心
: 更强的部署可用性
: 更快的动作表示
: VLA + world model + agent 的融合
上面最后一行是截至 2026-04 的趋势总结,不是单一论文名录。
10. 范式树状图与“从哪篇开始读”
graph TD
ROOT[具身智能模型] --> IL[经典模仿学习]
ROOT --> SEQ[序列与生成式策略]
ROOT --> VLA[VLA / 机器人基础模型]
ROOT --> WM[世界模型]
ROOT --> PLAN[大模型规划]
IL --> BC[BC / DAgger / GAIL]
SEQ --> ACT[ACT]
SEQ --> DP[Diffusion Policy]
VLA --> RT[RT-1 / RT-2]
VLA --> OCTO[Octo / OpenVLA / HPT]
VLA --> PI[pi0 / RDT]
WM --> DREAMER[Dreamer / UniSim / Cosmos]
PLAN --> SAYCAN[SayCan / Code as Policies / VoxPoser]
ACT --> VLA
style ACT fill:#e8f5e9
style VLA fill:#e3f2fd
style WM fill:#fff3e0
推荐阅读顺序
| 你的问题 | 先读 | 再读 |
|---|---|---|
| 我完全不知道机器人模型怎么分类 | 模型发展路线图 | 机器人基础模型概论 |
| 我只关心当前主流 VLA | VLA模型 | 开源模型汇总 |
| 我想搞清楚 ACT 为什么一直被提到 | ACT模型 | 模仿学习 |
| 我在做双臂 / 灵巧操作 | ACT模型 | 扩散策略 |
| 我关心世界模型和仿真生成 | 世界模型与视频生成 | 仿真世界构建与物理规则 |
| 我关心开源复现与训练入口 | 开源模型汇总 | 开源框架 |
11. 哪些模型值得单独成页,哪些先保留在综述中
当前最值得单独成页的模型,应满足至少一个条件:
- 开启了一条明确技术路线
- 仍然在工程复现中被频繁使用
- 对理解后续模型设计有明显桥接作用
按这个标准,当前建议是:
| 模型/方向 | 建议 |
|---|---|
| ACT | 已单独成页,原因是其桥接地位非常明确 |
| VLA 主线 | 已单独成页,原因是模型家族和时间线都已足够丰富 |
| Diffusion Policy | 保持在 扩散策略 中,因为它仍更像方法线 |
| RT-2 / OpenVLA / pi0 | 先保留在 VLA 综述中,后续如果内容继续增长再拆 |
| 世界模型 | 先按方向页维护,不急着拆单模型页 |
12. 参考阅读
- Brohan et al., RT-1: Robotics Transformer for Real-World Control at Scale, RSS 2023
- Brohan et al., RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control, CoRL 2023
- Octo Team, Octo: An Open-Source Generalist Robot Policy, RSS 2024
- Kim et al., OpenVLA: An Open-Source Vision-Language-Action Model, 2024
- Zhao et al., Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware, RSS 2023
- Chi et al., Diffusion Policy: Visuomotor Policy Learning via Action Diffusion, RSS 2023
- Black et al., pi0: A Vision-Language-Action Flow Model for General Robot Control, 2024
- Physical Intelligence, FAST: Efficient Robot Action Tokenization, 2025
- Hafner et al., DreamerV3, 2023
- 相关官方页面:
- OpenVLA: https://openvla.github.io/
- Octo: https://octo-models.github.io/
- Tony Zhao / ALOHA + ACT: https://tonyzhaozh.github.io/
- pi0 PDF: https://www.physicalintelligence.company/download/pi0.pdf
- FAST: https://www.physicalintelligence.company/research/fast