模型发展路线图

具身智能里的“模型”并不是一条单线演化出来的。它同时沿着两条主轴推进：

一条是时间线：从经典模仿学习到序列建模、再到 VLA、世界模型和 agentic planning。
一条是范式谱系：从“学动作”到“学分布”，再到“学语言+视觉+动作统一表示”，最后走向“学世界并在世界中规划”。

这篇笔记的作用不是替代单篇模型笔记，而是给整个 05_Models 板块补上一张总地图。读完之后，你应该知道：

机器人模型经历了哪些阶段。
ACT 在整个谱系里的位置是什么。
VLA、Diffusion Policy、世界模型和 LLM 规划分别属于哪条支线。
下一步该先读哪篇。

相关笔记：机器人基础模型概论 | VLA模型 | ACT模型 | 大模型驱动的机器人 | 世界模型与视频生成

1. 为什么需要一张模型发展路线图

如果只按“论文时间”来记模型，很容易产生两个误解：

误以为新模型一定全面替代旧模型
误以为所有工作都在同一条技术线上竞争

但真实情况是：

ACT 不是 foundation model，却是 action chunking 路线的关键桥梁
Diffusion Policy 不是 VLA，却定义了“生成式动作建模”这条强支线
RT-2 / OpenVLA / pi0 属于 VLA 主线，但动作头设计并不相同
SayCan / Code as Policies 主要解决的是规划与接口，而不是底层动作生成
Dreamer / UniSim / Cosmos 更接近“世界建模”和“想象中训练”

所以，最合理的组织方式不是只看时间，也不是只看类别，而是把时间线和范式谱系一起看。

2. 两条主轴：时间线与范式谱系

2.1 时间线看什么

时间线回答的是：关键拐点何时出现，后来工作是在延续哪种思想。

2.2 范式谱系看什么

范式谱系回答的是：一个模型主要解决哪一层问题。

维度	典型问题	代表模型
经典策略学习	如何从示教里学动作	BC, DAgger, GAIL
序列/生成式策略	如何建模多步、多模态动作	Decision Transformer, BeT, ACT, Diffusion Policy
VLA / 机器人基础模型	如何统一视觉、语言与动作	RT-1, RT-2, Octo, OpenVLA, pi0
世界模型	如何预测未来并在模型中训练	Dreamer, UniSim, Genie, Cosmos
大模型规划	如何做长程推理、子任务分解、API 调用	SayCan, Code as Policies, VoxPoser

3. 第一阶段：经典机器人学习模型

这条线的核心目标是：先让机器人学会从数据模仿动作。

典型代表：

BC：把策略学习直接变成监督学习
DAgger：解决部署时的分布偏移
IRL / MaxEnt IRL：从演示反推奖励
GAIL：把模仿学习写成对抗训练

这一阶段的特征是：

任务通常较窄
数据规模较小
模型以“学单步动作映射”为主
语言和跨任务泛化基本不强

这类内容主要放在模仿学习。

4. 第二阶段：序列建模与生成式策略

当研究者发现“单步回归动作”会遇到抖动、多模态、长时序误差累积时，第二阶段出现了。

4.1 这条线的核心转变

从：

\[ \pi(o_t) \rightarrow a_t \]

转向：

\[ \pi(o_{t-k:t}, \text{task}) \rightarrow a_{t:t+H} \]

也就是不再只预测当前一步，而是开始预测一个动作序列，或者直接建模动作分布。

4.2 代表模型

Decision Transformer：把控制写成序列建模
BeT：用离散 latent action token 建模行为
ACT：用 CVAE + Transformer 做 action chunk prediction
Diffusion Policy：用扩散模型建模多模态动作分布

4.3 为什么 ACT 是桥接节点

ACT 的重要性不在于它是最大的模型，而在于它把下面这条思路清晰地建立起来了：

graph LR
    IL[经典模仿学习] --> CHUNK[Action Chunking]
    CHUNK --> ACT[ACT]
    ACT --> GEN[生成式动作建模]
    GEN --> DP[Diffusion Policy / RDT]
    ACT --> VLA_HEAD[后续 VLA 的 chunk / token / horizon 设计]
    VLA_HEAD --> OPENVLA[OpenVLA / pi0 / FAST]

    style ACT fill:#e8f5e9
    style CHUNK fill:#fff3e0
    style VLA_HEAD fill:#e3f2fd

也就是说，ACT 连接的是：

左边的模仿学习
右边更大的动作建模路线，包括 VLA模型和后续 action tokenization 工作

如果只读 VLA 而不理解 ACT，很多“为什么要做 chunk、为什么不逐步出动作”的设计动机就会缺一半。

5. 第三阶段：VLA 与机器人基础模型

这一阶段的核心问题变成了：

能不能把视觉、语言和动作统一到同一模型里，并利用 web-scale 预训练获得跨任务泛化？

5.1 代表主线

RT-1：大规模真实机器人数据训练的 Robotics Transformer
RT-2：把 VLM 微调成 VLA，证明 web knowledge 可以迁入机器人控制
Octo：开源、多具身、通用动作接口
OpenVLA：开源 7B VLA，推动社区复现
HPT：异构传感器和跨具身输入的统一
RDT：扩散 Transformer 做双臂高维动作生成
pi0：flow matching 风格的 VLA 主线

5.2 这一阶段的关键变化

变化	早期策略模型	VLA / 基础模型阶段
输入	状态、少量图像	多视角视觉 + 语言 + 本体感觉
数据	单任务或单机器人	多任务、多机器人、多来源
目标	学单一技能	学通用视觉-语言-动作映射
输出	单步或短时序动作	token / chunk / diffusion / flow
泛化来源	演示覆盖	预训练 + 多具身数据 + 微调

更多细节见机器人基础模型概论和 VLA模型。

6. 第四阶段：世界模型与可想象训练

当动作模型越来越强之后，研究焦点进一步上移：

如果模型不仅会出动作，还会预测“未来会发生什么”，是不是可以先在模型中试错？

这条线的代表包括：

Dreamer 系：在 latent world model 中训练策略
UniSim：用可生成的世界替代大量真实交互
Genie / 交互式视频世界模型：从视频中学可交互动态
Cosmos / Genesis：把大规模视频生成、仿真和物理 AI 数据结合起来

这一阶段的重点不再只是“给我一个动作”，而是：

预测未来视觉状态
预测潜在动力学
在 imagined rollouts 中评估或训练策略

对应笔记是世界模型与视频生成。

7. 第五阶段：大模型规划与具身 Agent

还有一条并行主线，它不直接优化低层动作，而是研究：

如何让大模型做长程任务理解、工具调用、子任务分解和接口编排。

代表工作：

SayCan：LLM 概率与 affordance 分数联合选技能
Code as Policies：直接生成程序调用机器人接口
VoxPoser：让大模型通过 3D 价值图与空间表示来驱动操作

这条线和 VLA 不是替代关系，而是层级关系：

VLA 更像底层统一策略
LLM agent 更像高层规划器

对应笔记是大模型驱动的机器人。

8. 关键技术拐点

下面这些技术拐点，基本定义了近几年的演化方向：

技术拐点	解决的问题	代表工作
动作离散化	让 LLM/VLM 直接出动作 token	RT-1, RT-2, OpenVLA
Action chunking	减少抖动、提升时间一致性	ACT, pi0
扩散 / Flow Matching	建模多模态连续动作分布	Diffusion Policy, RDT, pi0
Web pretraining	引入语义知识与推理能力	RT-2, OpenVLA, pi0
Cross-embodiment	一个模型覆盖多机器人	Octo, HPT, OpenVLA
Open-source training stack	降低复现与微调门槛	Octo, OpenVLA, LeRobot
High-frequency action tokenization	让更快控制也能走 token 路线	FAST, 新一代 tokenized policy

其中 ACT 的历史地位 可以概括成一句话：

它不是终局 foundation model，但它把“短时序动作块作为主要建模对象”这件事做成了清晰范式。

9. 2022-2026 时间线总图

timeline
    title 机器人模型发展路线图（2022-2026）
    2022 : RT-1
         : SayCan
         : 经典大模型规划开始进入机器人
    2023 : RT-2
         : Octo
         : ACT
         : Diffusion Policy
         : 序列建模、生成式策略与 VLA 主线同时加速
    2024 : OpenVLA
         : pi0
         : HPT
         : RDT-1B
         : Genie / Cosmos / Genesis 方向升温
    2025 : pi0.5
         : FAST
         : 层级 VLA 与动作 tokenization 持续演进
    2026 : 当前重心
         : 更强的部署可用性
         : 更快的动作表示
         : VLA + world model + agent 的融合

上面最后一行是截至 2026-04 的趋势总结，不是单一论文名录。

10. 范式树状图与“从哪篇开始读”

graph TD
    ROOT[具身智能模型] --> IL[经典模仿学习]
    ROOT --> SEQ[序列与生成式策略]
    ROOT --> VLA[VLA / 机器人基础模型]
    ROOT --> WM[世界模型]
    ROOT --> PLAN[大模型规划]

    IL --> BC[BC / DAgger / GAIL]
    SEQ --> ACT[ACT]
    SEQ --> DP[Diffusion Policy]
    VLA --> RT[RT-1 / RT-2]
    VLA --> OCTO[Octo / OpenVLA / HPT]
    VLA --> PI[pi0 / RDT]
    WM --> DREAMER[Dreamer / UniSim / Cosmos]
    PLAN --> SAYCAN[SayCan / Code as Policies / VoxPoser]

    ACT --> VLA

    style ACT fill:#e8f5e9
    style VLA fill:#e3f2fd
    style WM fill:#fff3e0

11. 哪些模型值得单独成页，哪些先保留在综述中

当前最值得单独成页的模型，应满足至少一个条件：

开启了一条明确技术路线
仍然在工程复现中被频繁使用
对理解后续模型设计有明显桥接作用

按这个标准，当前建议是：

模型/方向	建议
ACT	已单独成页，原因是其桥接地位非常明确
VLA 主线	已单独成页，原因是模型家族和时间线都已足够丰富
Diffusion Policy	保持在扩散策略中，因为它仍更像方法线
RT-2 / OpenVLA / pi0	先保留在 VLA 综述中，后续如果内容继续增长再拆
世界模型	先按方向页维护，不急着拆单模型页

12. 参考阅读

Brohan et al., RT-1: Robotics Transformer for Real-World Control at Scale, RSS 2023
Brohan et al., RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control, CoRL 2023
Octo Team, Octo: An Open-Source Generalist Robot Policy, RSS 2024
Kim et al., OpenVLA: An Open-Source Vision-Language-Action Model, 2024
Zhao et al., Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware, RSS 2023
Chi et al., Diffusion Policy: Visuomotor Policy Learning via Action Diffusion, RSS 2023
Black et al., pi0: A Vision-Language-Action Flow Model for General Robot Control, 2024
Physical Intelligence, FAST: Efficient Robot Action Tokenization, 2025
Hafner et al., DreamerV3, 2023
相关官方页面：
- OpenVLA: https://openvla.github.io/
- Octo: https://octo-models.github.io/
- Tony Zhao / ALOHA + ACT: https://tonyzhaozh.github.io/
- pi0 PDF: https://www.physicalintelligence.company/download/pi0.pdf
- FAST: https://www.physicalintelligence.company/research/fast

你的问题	先读	再读
我完全不知道机器人模型怎么分类	模型发展路线图	机器人基础模型概论
我只关心当前主流 VLA	VLA模型	开源模型汇总
我想搞清楚 ACT 为什么一直被提到	ACT模型	模仿学习
我在做双臂 / 灵巧操作	ACT模型	扩散策略
我关心世界模型和仿真生成	世界模型与视频生成	仿真世界构建与物理规则
我关心开源复现与训练入口	开源模型汇总	开源框架