跳转至

模型发展路线图

具身智能里的“模型”并不是一条单线演化出来的。它同时沿着两条主轴推进:

  • 一条是时间线:从经典模仿学习到序列建模、再到 VLA、世界模型和 agentic planning。
  • 一条是范式谱系:从“学动作”到“学分布”,再到“学语言+视觉+动作统一表示”,最后走向“学世界并在世界中规划”。

这篇笔记的作用不是替代单篇模型笔记,而是给整个 05_Models 板块补上一张总地图。读完之后,你应该知道:

  1. 机器人模型经历了哪些阶段。
  2. ACT 在整个谱系里的位置是什么。
  3. VLA、Diffusion Policy、世界模型和 LLM 规划分别属于哪条支线。
  4. 下一步该先读哪篇。

相关笔记:机器人基础模型概论 | VLA模型 | ACT模型 | 大模型驱动的机器人 | 世界模型与视频生成


1. 为什么需要一张模型发展路线图

如果只按“论文时间”来记模型,很容易产生两个误解:

  • 误以为新模型一定全面替代旧模型
  • 误以为所有工作都在同一条技术线上竞争

但真实情况是:

  • ACT 不是 foundation model,却是 action chunking 路线的关键桥梁
  • Diffusion Policy 不是 VLA,却定义了“生成式动作建模”这条强支线
  • RT-2 / OpenVLA / pi0 属于 VLA 主线,但动作头设计并不相同
  • SayCan / Code as Policies 主要解决的是规划与接口,而不是底层动作生成
  • Dreamer / UniSim / Cosmos 更接近“世界建模”和“想象中训练”

所以,最合理的组织方式不是只看时间,也不是只看类别,而是把时间线和范式谱系一起看


2. 两条主轴:时间线与范式谱系

2.1 时间线看什么

时间线回答的是:关键拐点何时出现,后来工作是在延续哪种思想。

2.2 范式谱系看什么

范式谱系回答的是:一个模型主要解决哪一层问题。

维度 典型问题 代表模型
经典策略学习 如何从示教里学动作 BC, DAgger, GAIL
序列/生成式策略 如何建模多步、多模态动作 Decision Transformer, BeT, ACT, Diffusion Policy
VLA / 机器人基础模型 如何统一视觉、语言与动作 RT-1, RT-2, Octo, OpenVLA, pi0
世界模型 如何预测未来并在模型中训练 Dreamer, UniSim, Genie, Cosmos
大模型规划 如何做长程推理、子任务分解、API 调用 SayCan, Code as Policies, VoxPoser

3. 第一阶段:经典机器人学习模型

这条线的核心目标是:先让机器人学会从数据模仿动作

典型代表:

  • BC:把策略学习直接变成监督学习
  • DAgger:解决部署时的分布偏移
  • IRL / MaxEnt IRL:从演示反推奖励
  • GAIL:把模仿学习写成对抗训练

这一阶段的特征是:

  • 任务通常较窄
  • 数据规模较小
  • 模型以“学单步动作映射”为主
  • 语言和跨任务泛化基本不强

这类内容主要放在 模仿学习


4. 第二阶段:序列建模与生成式策略

当研究者发现“单步回归动作”会遇到抖动、多模态、长时序误差累积时,第二阶段出现了。

4.1 这条线的核心转变

从:

\[ \pi(o_t) \rightarrow a_t \]

转向:

\[ \pi(o_{t-k:t}, \text{task}) \rightarrow a_{t:t+H} \]

也就是不再只预测当前一步,而是开始预测一个动作序列,或者直接建模动作分布。

4.2 代表模型

  • Decision Transformer:把控制写成序列建模
  • BeT:用离散 latent action token 建模行为
  • ACT:用 CVAE + Transformer 做 action chunk prediction
  • Diffusion Policy:用扩散模型建模多模态动作分布

4.3 为什么 ACT 是桥接节点

ACT 的重要性不在于它是最大的模型,而在于它把下面这条思路清晰地建立起来了:

graph LR
    IL[经典模仿学习] --> CHUNK[Action Chunking]
    CHUNK --> ACT[ACT]
    ACT --> GEN[生成式动作建模]
    GEN --> DP[Diffusion Policy / RDT]
    ACT --> VLA_HEAD[后续 VLA 的 chunk / token / horizon 设计]
    VLA_HEAD --> OPENVLA[OpenVLA / pi0 / FAST]

    style ACT fill:#e8f5e9
    style CHUNK fill:#fff3e0
    style VLA_HEAD fill:#e3f2fd

也就是说,ACT 连接的是:

  • 左边的 模仿学习
  • 右边更大的动作建模路线,包括 VLA模型 和后续 action tokenization 工作

如果只读 VLA 而不理解 ACT,很多“为什么要做 chunk、为什么不逐步出动作”的设计动机就会缺一半。


5. 第三阶段:VLA 与机器人基础模型

这一阶段的核心问题变成了:

能不能把视觉、语言和动作统一到同一模型里,并利用 web-scale 预训练获得跨任务泛化?

5.1 代表主线

  • RT-1:大规模真实机器人数据训练的 Robotics Transformer
  • RT-2:把 VLM 微调成 VLA,证明 web knowledge 可以迁入机器人控制
  • Octo:开源、多具身、通用动作接口
  • OpenVLA:开源 7B VLA,推动社区复现
  • HPT:异构传感器和跨具身输入的统一
  • RDT:扩散 Transformer 做双臂高维动作生成
  • pi0:flow matching 风格的 VLA 主线

5.2 这一阶段的关键变化

变化 早期策略模型 VLA / 基础模型阶段
输入 状态、少量图像 多视角视觉 + 语言 + 本体感觉
数据 单任务或单机器人 多任务、多机器人、多来源
目标 学单一技能 学通用视觉-语言-动作映射
输出 单步或短时序动作 token / chunk / diffusion / flow
泛化来源 演示覆盖 预训练 + 多具身数据 + 微调

更多细节见 机器人基础模型概论VLA模型


6. 第四阶段:世界模型与可想象训练

当动作模型越来越强之后,研究焦点进一步上移:

如果模型不仅会出动作,还会预测“未来会发生什么”,是不是可以先在模型中试错?

这条线的代表包括:

  • Dreamer 系:在 latent world model 中训练策略
  • UniSim:用可生成的世界替代大量真实交互
  • Genie / 交互式视频世界模型:从视频中学可交互动态
  • Cosmos / Genesis:把大规模视频生成、仿真和物理 AI 数据结合起来

这一阶段的重点不再只是“给我一个动作”,而是:

  • 预测未来视觉状态
  • 预测潜在动力学
  • 在 imagined rollouts 中评估或训练策略

对应笔记是 世界模型与视频生成


7. 第五阶段:大模型规划与具身 Agent

还有一条并行主线,它不直接优化低层动作,而是研究:

如何让大模型做长程任务理解、工具调用、子任务分解和接口编排。

代表工作:

  • SayCan:LLM 概率与 affordance 分数联合选技能
  • Code as Policies:直接生成程序调用机器人接口
  • VoxPoser:让大模型通过 3D 价值图与空间表示来驱动操作

这条线和 VLA 不是替代关系,而是层级关系:

  • VLA 更像底层统一策略
  • LLM agent 更像高层规划器

对应笔记是 大模型驱动的机器人


8. 关键技术拐点

下面这些技术拐点,基本定义了近几年的演化方向:

技术拐点 解决的问题 代表工作
动作离散化 让 LLM/VLM 直接出动作 token RT-1, RT-2, OpenVLA
Action chunking 减少抖动、提升时间一致性 ACT, pi0
扩散 / Flow Matching 建模多模态连续动作分布 Diffusion Policy, RDT, pi0
Web pretraining 引入语义知识与推理能力 RT-2, OpenVLA, pi0
Cross-embodiment 一个模型覆盖多机器人 Octo, HPT, OpenVLA
Open-source training stack 降低复现与微调门槛 Octo, OpenVLA, LeRobot
High-frequency action tokenization 让更快控制也能走 token 路线 FAST, 新一代 tokenized policy

其中 ACT 的历史地位 可以概括成一句话:

它不是终局 foundation model,但它把“短时序动作块作为主要建模对象”这件事做成了清晰范式。


9. 2022-2026 时间线总图

timeline
    title 机器人模型发展路线图(2022-2026)
    2022 : RT-1
         : SayCan
         : 经典大模型规划开始进入机器人
    2023 : RT-2
         : Octo
         : ACT
         : Diffusion Policy
         : 序列建模、生成式策略与 VLA 主线同时加速
    2024 : OpenVLA
         : pi0
         : HPT
         : RDT-1B
         : Genie / Cosmos / Genesis 方向升温
    2025 : pi0.5
         : FAST
         : 层级 VLA 与动作 tokenization 持续演进
    2026 : 当前重心
         : 更强的部署可用性
         : 更快的动作表示
         : VLA + world model + agent 的融合

上面最后一行是截至 2026-04 的趋势总结,不是单一论文名录。


10. 范式树状图与“从哪篇开始读”

graph TD
    ROOT[具身智能模型] --> IL[经典模仿学习]
    ROOT --> SEQ[序列与生成式策略]
    ROOT --> VLA[VLA / 机器人基础模型]
    ROOT --> WM[世界模型]
    ROOT --> PLAN[大模型规划]

    IL --> BC[BC / DAgger / GAIL]
    SEQ --> ACT[ACT]
    SEQ --> DP[Diffusion Policy]
    VLA --> RT[RT-1 / RT-2]
    VLA --> OCTO[Octo / OpenVLA / HPT]
    VLA --> PI[pi0 / RDT]
    WM --> DREAMER[Dreamer / UniSim / Cosmos]
    PLAN --> SAYCAN[SayCan / Code as Policies / VoxPoser]

    ACT --> VLA

    style ACT fill:#e8f5e9
    style VLA fill:#e3f2fd
    style WM fill:#fff3e0

推荐阅读顺序

你的问题 先读 再读
我完全不知道机器人模型怎么分类 模型发展路线图 机器人基础模型概论
我只关心当前主流 VLA VLA模型 开源模型汇总
我想搞清楚 ACT 为什么一直被提到 ACT模型 模仿学习
我在做双臂 / 灵巧操作 ACT模型 扩散策略
我关心世界模型和仿真生成 世界模型与视频生成 仿真世界构建与物理规则
我关心开源复现与训练入口 开源模型汇总 开源框架

11. 哪些模型值得单独成页,哪些先保留在综述中

当前最值得单独成页的模型,应满足至少一个条件:

  • 开启了一条明确技术路线
  • 仍然在工程复现中被频繁使用
  • 对理解后续模型设计有明显桥接作用

按这个标准,当前建议是:

模型/方向 建议
ACT 已单独成页,原因是其桥接地位非常明确
VLA 主线 已单独成页,原因是模型家族和时间线都已足够丰富
Diffusion Policy 保持在 扩散策略 中,因为它仍更像方法线
RT-2 / OpenVLA / pi0 先保留在 VLA 综述中,后续如果内容继续增长再拆
世界模型 先按方向页维护,不急着拆单模型页

12. 参考阅读


评论 #