具身智能技术路线:VLA / VLM / World Model
最后更新:2026-04-22
本文是具身智能板块入口总览。具身智能(Embodied AI)是机器人能不能真正"活在物理世界里"的大脑问题。硬件视角见 人形机器人行业格局,本文聚焦算法路线与产业玩家。
摘要(TL;DR)
- 路线未收敛:2026 年初的具身智能类似 2020 年的大模型——多条路线并行(VLA / VLM + 动作头 / World Model / 端到端模仿学习),尚未出现"Transformer 一统江湖"的时刻。
- 数据是第一瓶颈:与 LLM 不同,互联网上没有机器人数据。头部玩家砸重金采集真机 / 遥操作 / 仿真数据——Physical Intelligence 已累积 10,000+ 小时真机数据,规模化难点在这。
- 产业距离"GPT-3 时刻"还有 12-24 个月:当前模型在"已见过的任务"上可达 85%+ 成功率,但"零样本新任务"普遍 <30%。真正的能力拐点可能在 2026 年下半年 - 2027 年到来。
一、三条主路线对比
graph LR
A[感知: 摄像头+IMU+力觉] --> VLA[VLA 直接端到端<br/>π0 · RT-2 · OpenVLA]
A --> VLM[VLM 分层<br/>顶层推理 + 底层控制<br/>Helix · 分层 Agent]
A --> WM[World Model<br/>Dreamer · V-JEPA · Genie]
VLA --> OUT[动作输出]
VLM --> OUT
WM --> PLAN[想象未来<br/>规划动作] --> OUT
style VLA fill:#0ABAB5,color:#fff
style VLM fill:#4FD1CC,color:#fff
style WM fill:#D4A574,color:#fff
路线 A · VLA(Vision-Language-Action)端到端
核心思想:一个大模型同时吃 (图像, 语言指令),直接输出动作 token。
代表: - RT-2 (Google DeepMind, 2023):首个以 PaLI-X 为底座的 VLA - OpenVLA (Stanford, 2024):7B 开源 - π0 / π0.5 (Physical Intelligence, 2024-2025):当前行业最强 - RDT (清华,2024):开源扩散式 VLA - CogACT / TinyVLA 等一众小模型
优势: - 工程简单,一个模型解决从视觉到动作 - Scaling law 类似 LLM,加数据加算力效果显著 - 推理延迟低(单次前向即出动作)
劣势: - 需要海量动作-视觉配对数据(遥操作 + 真机采集) - 难以在新任务上零样本泛化 - 动作空间高维(7-DOF 臂 × 几十 Hz 频率)= 训练不稳定
适用场景:重复性强、数据采集成本可控的任务(拣货、流水线、单一家务)。
路线 B · VLM + 动作头(分层)
核心思想: - 顶层:用通用 VLM(GPT / Claude / Gemini)做任务规划("把苹果放到冰箱" → 分解成"找到苹果 → 抓取 → 走到冰箱 → 打开门 → 放入") - 底层:用小专家模型 / 运控策略执行每一步
代表: - Figure Helix (2025):System 2(视觉语言理解)+ System 1(200Hz 全身控制) - Say-Can (Google, 2022):早期代表 - Voxposer / Code-as-Policies (2023):LLM 生成机器人代码 - NVIDIA GR00T 走的是"Foundation + Specialist"分层路线
优势: - 充分利用现有 VLM 通识能力(不用从零训练语言理解) - 顶层规划易于调试、审核、打补丁 - 部署成本低(顶层 API 调用,底层轻量模型)
劣势: - 顶层与底层之间的接口损耗(高层推理到低层动作有信息丢失) - 顶层 VLM 的延迟可能成为瓶颈(1-3 秒 vs 需要 200Hz 控制) - 在高动态任务(跑、跳、平衡)上难以做到端到端的流畅
适用场景:长时程、多步骤、需要常识推理的任务(家务 / 办公 / 协作)。
路线 C · World Model(世界模型)
核心思想:先学会预测物理世界下一秒会发生什么,然后用这个"想象"来规划动作。
代表: - Dreamer 系列 (Hafner et al., DeepMind 路线):学 latent dynamics - V-JEPA (Meta Yann LeCun, 2024-2025):视频版 JEPA,无 pixel-level reconstruction - Genie / Genie 2 (Google DeepMind, 2024):给一张图生成可交互 2D/3D 世界 - Sora / Veo 等视频生成被某些研究者视为"隐式 World Model"
优势: - 样本效率高(模型在"想象中"训练 policy,真机数据需求少) - 对物理规律的泛化性理论上最好 - LeCun 阵营的战略方向
劣势: - 技术不成熟,当前模型还做不到高保真长时程预测 - 产业化最早的一条但兑现最慢 - 计算成本高
适用场景:理论价值最高,短期内更多是研究而非产品。
二、数据:具身智能的核心瓶颈
数据类型与性价比
| 数据类型 | 单小时成本 | 质量 | 可扩展性 |
|---|---|---|---|
| 真机随机探索 | $10-50 | 低 | 高 |
| 真机遥操作(VR/手柄) | $50-200 | 中-高 | 中 |
| 真机专家采集 | $200-500+ | 高 | 低 |
| 仿真(Isaac / MuJoCo / Genesis) | $1-10 | 随物理保真度变化 | 极高 |
| 视频预训练(YouTube 人类视频) | ~$0 | 质量低(无动作标签) | 极高 |
产业共识:单一数据源都不够——真机 + 仿真 + 视频预训练混合是标配。详见 Sim2Real 与仿真平台。
各家数据规模(截至 2025 末,公开披露)
- Physical Intelligence (π):10,000+ 小时多形态真机数据
- Figure AI:大量自有 + 与 Fourier 合作的跨厂数据
- Google RT 系列:RT-X Dataset,跨 22 家实验室、22 种机器人、100 万+ episodes
- Tesla Optimus:未披露,估计积累最快(FSD 数据架构可复用)
- 中国"国家具身智能创新中心":正在建立万亿 token 级具身数据基础设施
跨形态迁移
一个大难点:在 A 机器人上训的模型能不能用在 B 机器人上? - RT-X 项目(Google + 21 个实验室)证明有跨形态迁移性,但效果大打折扣 - Physical Intelligence 的 π0 设计时考虑了"action tokenization"以适配多形态
三、玩家格局
"纯大脑"公司(不做整机)
| 公司 | 定位 | 旗舰模型 |
|---|---|---|
| Physical Intelligence (π) | 最像 OpenAI 的具身大脑 | π0 (2024), π0.5 (2025) |
| Skild AI | Skild Brain,CMU 系 | Skild Brain v1 |
| Covariant | 工业场景 RFM-1 | 被 Amazon 收购核心团队 2024 |
| Wayve | 自动驾驶世界模型 | LINGO / GAIA |
详见:Physical Intelligence · Skild AI · Covariant · Wayve
"大脑 + 身体"一体化玩家
- Figure AI(Helix + Figure 02/03)
- Tesla(Optimus + 端到端 FSD 复用)
- 1X Technologies(NEO + 自研具身模型)
- 银河通用 Galbot(中国代表,硬件 + Galbot-1 模型)
- 智元机器人 / 宇树 也在建自己的具身模型
科研主导的"事实标准"
- Google DeepMind RT / Gemini Robotics 系列
- NVIDIA Isaac + GR00T 基础模型
- 清华 RDT、上海 AI Lab、北大具身智能团队、UC Berkeley、Stanford、CMU 的学术组
四、能力基准
常用 benchmark
| 基准 | 测什么 | 头部成绩(2025 末) |
|---|---|---|
| RT-2 / CALVIN | 桌面操作 | 80-95%(已见任务) |
| RLBench | 多任务仿真 | 60-80% |
| BEHAVIOR-1k (Stanford) | 家庭长时程 | 30-50% |
| RoboCasa | 厨房场景 | 40-60% |
| LIBERO | 任务泛化 | 70-85%(已见),<30%(零样本) |
| OSWorld / BEHAVIOR | 长时程 | <20% |
详见 具身智能评测基准。
重要观察
- "拣一个物体"已接近解决
- "完成一个家庭任务"(如做早餐、整理房间)远未解决
- 长时程 × 零样本 = 当前短板
五、2026 的关键变量
1. Physical Intelligence 下一代模型
- π0 / π0.5 已震撼,π1 若在 2026 年发布并保持数量级能力提升,行业会正式迎来"GPT-3 时刻"
- 估值已达 ~$5B (2025 Nov, Series C),Amazon 投资
2. Skild AI 与 Figure 的对打
- 两条路线(泛化大脑 vs 整机一体)的第一次正面 PK
- 2026 年双方都有产品落地节点
3. Gemini Robotics / GR00T 的公开进展
- Google DeepMind 2025 年底发布 Gemini Robotics,能力给业界惊喜
- NVIDIA GR00T 作为开放平台策略,可能形成类似 Android 的生态
4. 数据基础设施
- 开源大规模数据集(如 Open X-Embodiment)是否继续扩张
- 中国能不能建成真正的"具身数据高速公路"
5. 仿真真实性的跃升
- NVIDIA Isaac、Genesis(CMU 2024 开源)、Meta Habitat 等不断逼近物理真实
- Sim2Real gap 如果缩到 5% 以内,训练成本下降一个数量级
六、我的判断
我的看法:
- 具身大模型不是"Transformer 一统江湖"式的突破路径,更像化学工业——多条工艺路线并存,每条都有适配场景。VLA 会在"重复性强、数据可收集"的场景先赢;VLM + 动作头会在"家庭长时程"场景赢;World Model 仍处研究阶段
- "专门搞大脑不搞身体"的商业模式很艰难—— Physical Intelligence 的生态依赖度太高,不自建整机就永远是 2B 供应商。Skild 和 π 都会在 2026-2027 有"要不要做整机"的战略选择
- 中国在这一轮会比 LLM 时代追得更快—— 因为数据采集场景(工厂、仓库、家庭)中国本来就有优势,而不是像 LLM 那样需要海量英文互联网语料
我可能错在哪里:
- World Model 路线可能突然崛起:Yann LeCun 押的方向如果某一代(V-JEPA v3 或类似)跑出惊艳结果,格局会被重写
- "端到端"可能是正解:Tesla 在自动驾驶上证明了"足够多数据 + 足够大模型 + 端到端" 能碾压模块化路线——Optimus 如果延续这条路径在 2027-2028 兑现,其他分层路线会尴尬
- 泛化性的门槛可能更低也可能更高:目前对"零样本新任务"的预期不是 60%(高估)就是 10%(低估),真实值可能在中间但分布很重要
七、延伸阅读
同板块深度: - Sim2Real 与仿真平台:Isaac / MuJoCo / Genesis - 具身智能数据采集:遥操作 / 仿真 / 真机 - 具身智能评测基准 - 具身基础模型的 Scaling Law 讨论
公司级: - Physical Intelligence (π) · Skild AI - Covariant · Wayve - 银河通用 Galbot
产品 / 模型: - π0 与 π0.5 · Helix (Figure) - GR00T (NVIDIA) · RT-2 / OpenVLA
交叉: - 人形机器人行业格局 2026 —— 从硬件角度看同一产业
信息源
- Physical Intelligence blog · Figure AI blog · Google DeepMind Robotics blog
- arXiv cs.RO · RSS / CoRL / ICRA 论文
- Open X-Embodiment 开源数据集与项目报告
- NVIDIA GTC 2025 Keynote(Isaac / GR00T 路线图)
- Import AI (Jack Clark) · Interconnects · Ahead of AI 相关专栏
- 机器之心 · 具身智能板块中文追踪