具身智能技术路线：VLA / VLM / World Model

最后更新：2026-04-22

本文是具身智能板块入口总览。具身智能（Embodied AI）是机器人能不能真正"活在物理世界里"的大脑问题。硬件视角见人形机器人行业格局，本文聚焦算法路线与产业玩家。

摘要（TL;DR）

路线未收敛：2026 年初的具身智能类似 2020 年的大模型——多条路线并行（VLA / VLM + 动作头 / World Model / 端到端模仿学习），尚未出现"Transformer 一统江湖"的时刻。
数据是第一瓶颈：与 LLM 不同，互联网上没有机器人数据。头部玩家砸重金采集真机 / 遥操作 / 仿真数据——Physical Intelligence 已累积 10,000+ 小时真机数据，规模化难点在这。
产业距离"GPT-3 时刻"还有 12-24 个月：当前模型在"已见过的任务"上可达 85%+ 成功率，但"零样本新任务"普遍 <30%。真正的能力拐点可能在 2026 年下半年 - 2027 年到来。

一、三条主路线对比

graph LR
    A[感知: 摄像头+IMU+力觉] --> VLA[VLA 直接端到端<br/>π0 · RT-2 · OpenVLA]
    A --> VLM[VLM 分层<br/>顶层推理 + 底层控制<br/>Helix · 分层 Agent]
    A --> WM[World Model<br/>Dreamer · V-JEPA · Genie]

    VLA --> OUT[动作输出]
    VLM --> OUT
    WM --> PLAN[想象未来<br/>规划动作] --> OUT

    style VLA fill:#0ABAB5,color:#fff
    style VLM fill:#4FD1CC,color:#fff
    style WM fill:#D4A574,color:#fff

路线 A · VLA（Vision-Language-Action）端到端

核心思想：一个大模型同时吃 (图像, 语言指令)，直接输出动作 token。

代表： - RT-2 (Google DeepMind, 2023)：首个以 PaLI-X 为底座的 VLA - OpenVLA (Stanford, 2024)：7B 开源 - π0 / π0.5 (Physical Intelligence, 2024-2025)：当前行业最强 - RDT (清华，2024)：开源扩散式 VLA - CogACT / TinyVLA 等一众小模型

优势： - 工程简单，一个模型解决从视觉到动作 - Scaling law 类似 LLM，加数据加算力效果显著 - 推理延迟低（单次前向即出动作）

劣势： - 需要海量动作-视觉配对数据（遥操作 + 真机采集） - 难以在新任务上零样本泛化 - 动作空间高维（7-DOF 臂 × 几十 Hz 频率）= 训练不稳定

适用场景：重复性强、数据采集成本可控的任务（拣货、流水线、单一家务）。

路线 B · VLM + 动作头（分层）

核心思想： - 顶层：用通用 VLM（GPT / Claude / Gemini）做任务规划（"把苹果放到冰箱" → 分解成"找到苹果 → 抓取 → 走到冰箱 → 打开门 → 放入"） - 底层：用小专家模型 / 运控策略执行每一步

代表： - Figure Helix (2025)：System 2（视觉语言理解）+ System 1（200Hz 全身控制） - Say-Can (Google, 2022)：早期代表 - Voxposer / Code-as-Policies (2023)：LLM 生成机器人代码 - NVIDIA GR00T 走的是"Foundation + Specialist"分层路线

优势： - 充分利用现有 VLM 通识能力（不用从零训练语言理解） - 顶层规划易于调试、审核、打补丁 - 部署成本低（顶层 API 调用，底层轻量模型）

劣势： - 顶层与底层之间的接口损耗（高层推理到低层动作有信息丢失） - 顶层 VLM 的延迟可能成为瓶颈（1-3 秒 vs 需要 200Hz 控制） - 在高动态任务（跑、跳、平衡）上难以做到端到端的流畅

适用场景：长时程、多步骤、需要常识推理的任务（家务 / 办公 / 协作）。

路线 C · World Model（世界模型）

核心思想：先学会预测物理世界下一秒会发生什么，然后用这个"想象"来规划动作。

代表： - Dreamer 系列 (Hafner et al., DeepMind 路线)：学 latent dynamics - V-JEPA (Meta Yann LeCun, 2024-2025)：视频版 JEPA，无 pixel-level reconstruction - Genie / Genie 2 (Google DeepMind, 2024)：给一张图生成可交互 2D/3D 世界 - Sora / Veo 等视频生成被某些研究者视为"隐式 World Model"

优势： - 样本效率高（模型在"想象中"训练 policy，真机数据需求少） - 对物理规律的泛化性理论上最好 - LeCun 阵营的战略方向

劣势： - 技术不成熟，当前模型还做不到高保真长时程预测 - 产业化最早的一条但兑现最慢 - 计算成本高

适用场景：理论价值最高，短期内更多是研究而非产品。

二、数据：具身智能的核心瓶颈

数据类型与性价比

数据类型	单小时成本	质量	可扩展性
真机随机探索	$10-50	低	高
真机遥操作（VR/手柄）	$50-200	中-高	中
真机专家采集	$200-500+	高	低
仿真（Isaac / MuJoCo / Genesis）	$1-10	随物理保真度变化	极高
视频预训练（YouTube 人类视频）	~$0	质量低（无动作标签）	极高

产业共识：单一数据源都不够——真机 + 仿真 + 视频预训练混合是标配。详见 Sim2Real 与仿真平台。

各家数据规模（截至 2025 末，公开披露）

Physical Intelligence (π)：10,000+ 小时多形态真机数据
Figure AI：大量自有 + 与 Fourier 合作的跨厂数据
Google RT 系列：RT-X Dataset，跨 22 家实验室、22 种机器人、100 万+ episodes
Tesla Optimus：未披露，估计积累最快（FSD 数据架构可复用）
中国"国家具身智能创新中心"：正在建立万亿 token 级具身数据基础设施

跨形态迁移

一个大难点：在 A 机器人上训的模型能不能用在 B 机器人上？ - RT-X 项目（Google + 21 个实验室）证明有跨形态迁移性，但效果大打折扣 - Physical Intelligence 的 π0 设计时考虑了"action tokenization"以适配多形态

三、玩家格局

"纯大脑"公司（不做整机）

公司	定位	旗舰模型
Physical Intelligence (π)	最像 OpenAI 的具身大脑	π0 (2024), π0.5 (2025)
Skild AI	Skild Brain，CMU 系	Skild Brain v1
Covariant	工业场景 RFM-1	被 Amazon 收购核心团队 2024
Wayve	自动驾驶世界模型	LINGO / GAIA

详见：Physical Intelligence · Skild AI · Covariant · Wayve

"大脑 + 身体"一体化玩家

Figure AI（Helix + Figure 02/03）
Tesla（Optimus + 端到端 FSD 复用）
1X Technologies（NEO + 自研具身模型）
银河通用 Galbot（中国代表，硬件 + Galbot-1 模型）
智元机器人 / 宇树 也在建自己的具身模型

科研主导的"事实标准"

Google DeepMind RT / Gemini Robotics 系列
NVIDIA Isaac + GR00T 基础模型
清华 RDT、上海 AI Lab、北大具身智能团队、UC Berkeley、Stanford、CMU 的学术组

四、能力基准

常用 benchmark

基准	测什么	头部成绩（2025 末）
RT-2 / CALVIN	桌面操作	80-95%（已见任务）
RLBench	多任务仿真	60-80%
BEHAVIOR-1k (Stanford)	家庭长时程	30-50%
RoboCasa	厨房场景	40-60%
LIBERO	任务泛化	70-85%（已见），<30%（零样本）
OSWorld / BEHAVIOR	长时程	<20%

详见具身智能评测基准。

重要观察

"拣一个物体"已接近解决
"完成一个家庭任务"（如做早餐、整理房间）远未解决
长时程 × 零样本 = 当前短板

五、2026 的关键变量

1. Physical Intelligence 下一代模型

π0 / π0.5 已震撼，π1 若在 2026 年发布并保持数量级能力提升，行业会正式迎来"GPT-3 时刻"
估值已达 ~$5B (2025 Nov, Series C)，Amazon 投资

2. Skild AI 与 Figure 的对打

两条路线（泛化大脑 vs 整机一体）的第一次正面 PK
2026 年双方都有产品落地节点

3. Gemini Robotics / GR00T 的公开进展

Google DeepMind 2025 年底发布 Gemini Robotics，能力给业界惊喜
NVIDIA GR00T 作为开放平台策略，可能形成类似 Android 的生态

4. 数据基础设施

开源大规模数据集（如 Open X-Embodiment）是否继续扩张
中国能不能建成真正的"具身数据高速公路"

5. 仿真真实性的跃升

NVIDIA Isaac、Genesis（CMU 2024 开源）、Meta Habitat 等不断逼近物理真实
Sim2Real gap 如果缩到 5% 以内，训练成本下降一个数量级

六、我的判断

我的看法：

具身大模型不是"Transformer 一统江湖"式的突破路径，更像化学工业——多条工艺路线并存，每条都有适配场景。VLA 会在"重复性强、数据可收集"的场景先赢；VLM + 动作头会在"家庭长时程"场景赢；World Model 仍处研究阶段

"专门搞大脑不搞身体"的商业模式很艰难—— Physical Intelligence 的生态依赖度太高，不自建整机就永远是 2B 供应商。Skild 和 π 都会在 2026-2027 有"要不要做整机"的战略选择

中国在这一轮会比 LLM 时代追得更快—— 因为数据采集场景（工厂、仓库、家庭）中国本来就有优势，而不是像 LLM 那样需要海量英文互联网语料

我可能错在哪里：

World Model 路线可能突然崛起：Yann LeCun 押的方向如果某一代（V-JEPA v3 或类似）跑出惊艳结果，格局会被重写

"端到端"可能是正解：Tesla 在自动驾驶上证明了"足够多数据 + 足够大模型 + 端到端" 能碾压模块化路线——Optimus 如果延续这条路径在 2027-2028 兑现，其他分层路线会尴尬

泛化性的门槛可能更低也可能更高：目前对"零样本新任务"的预期不是 60%（高估）就是 10%（低估），真实值可能在中间但分布很重要

七、延伸阅读

同板块深度： - Sim2Real 与仿真平台：Isaac / MuJoCo / Genesis - 具身智能数据采集：遥操作 / 仿真 / 真机 - 具身智能评测基准 - 具身基础模型的 Scaling Law 讨论

公司级： - Physical Intelligence (π) · Skild AI - Covariant · Wayve - 银河通用 Galbot

产品 / 模型： - π0 与 π0.5 · Helix (Figure) - GR00T (NVIDIA) · RT-2 / OpenVLA

交叉： - 人形机器人行业格局 2026 —— 从硬件角度看同一产业

信息源

Physical Intelligence blog · Figure AI blog · Google DeepMind Robotics blog
arXiv cs.RO · RSS / CoRL / ICRA 论文
Open X-Embodiment 开源数据集与项目报告
NVIDIA GTC 2025 Keynote（Isaac / GR00T 路线图）
Import AI (Jack Clark) · Interconnects · Ahead of AI 相关专栏
机器之心 · 具身智能板块中文追踪