机器人基础模型 RFM 趋势
最后更新:2026-04-23
Robotic Foundation Model (RFM) 是 2023-2026 年最激烈的 AI 方向之一——所有人都相信"机器人需要自己的 GPT 时刻",但路线还没收敛。本文梳理 RFM 的技术路线、玩家格局、与 LLM 的关系。
一句话结论
RFM 正处于 Pre-ChatGPT 状态——多条路线并行(VLA / VLM + 动作头 / World Model / 端到端模仿)、数据稀缺、泛化不足。2026-2027 很可能是 RFM 的"GPT-3 时刻"——一个主流路线确立,能力出现非线性跃升。
三条关键要点
- 数据是第一瓶颈:与 LLM 不同,互联网上没有机器人数据。头部玩家积累真机 + 遥操作 + 仿真数据
- Physical Intelligence 的 π0/π0.5 是当前最受关注的"纯大脑"公司(不做整机)
- Figure Helix / Tesla 端到端路线是"整机 + 大脑"一体化的代表——与纯大脑路线形成对照
RFM 主要技术路线
路线 A · VLA(Vision-Language-Action)端到端
- 原理:一个大模型同时吃(图像 + 语言指令),直接输出动作 token
- 代表:RT-2(Google 2023)、OpenVLA(Stanford 2024)、π0 / π0.5(Physical Intelligence 2024-2025)、RDT(清华 2024)
- 优势:工程简单;Scaling law 类似 LLM
- 劣势:需要海量动作数据;动作空间高维
路线 B · VLM + 动作头(分层)
- 原理:顶层用通用 VLM 做任务规划(Claude / GPT),底层用小专家模型 / 运控策略执行
- 代表:Figure Helix(2025)、Say-Can(Google 2022)、NVIDIA GR00T
- 优势:利用现有 VLM 通识能力;顶层易调试
- 劣势:顶层与底层接口损耗;高动态任务难
路线 C · World Model
- 原理:先学会预测物理世界下一秒发生什么,然后用"想象"规划动作
- 代表:Dreamer(DeepMind 路线)、V-JEPA(Meta LeCun 2024-2025)、Genie 2(Google DeepMind)
- 优势:样本效率高;泛化性理论最好
- 劣势:技术不成熟;产业化最晚
路线 D · 端到端模仿学习
- 原理:大量遥操作数据 → 纯行为克隆
- 代表:Tesla Optimus、ALOHA 系列
- 优势:简单、数据驱动、成熟度上升
- 劣势:泛化弱,难到新任务
详见 具身智能技术路线。
主要玩家(RFM 维度)
纯大脑派
- Physical Intelligence (π)(2024 成立):π0、π0.5 模型,10k+ 小时真机数据
- Skild AI(CMU 系):Skild Brain 通用操作模型
- Covariant:工业场景 RFM-1(核心团队 2024 被 Amazon 吸收)
- Wayve:自动驾驶世界模型 LINGO / GAIA
整机 + 大脑派
- Figure AI:Helix 系统,2025 年与 Figure 02 深度绑定
- Tesla:端到端 FSD 架构复用到 Optimus
- NVIDIA GR00T:开放平台策略(提供给所有机器人厂)
- Boston Dynamics:Atlas Electric + RT 系列集成
学术主导的 RFM
- Google DeepMind · RT 系列 / Gemini Robotics(2025 末)
- UC Berkeley · Pieter Abbeel / Sergey Levine 组
- Stanford HAI Robotics
- CMU · Matthew Johnson-Roberson 组
- 清华 RDT、上海 AI Lab、北大
数据:RFM 的 GPT-3 数据集瓶颈
数据类型与性价比
| 数据类型 | 单小时成本 | 质量 | 可扩展 |
|---|---|---|---|
| 真机随机探索 | $10-50 | 低 | 高 |
| 真机遥操作(VR/手柄) | $50-200 | 中-高 | 中 |
| 真机专家采集 | $200-500+ | 高 | 低 |
| 仿真(Isaac/MuJoCo/Genesis) | $1-10 | 随物理保真度 | 极高 |
| 视频预训练(YouTube 人类视频) | ~$0 | 质量低(无动作标签) | 极高 |
各家数据规模(截至 2025 末公开)
- Physical Intelligence (π):10,000+ 小时多形态真机
- Google RT-X Dataset:22 家实验室、22 种机器人、100 万+ episodes
- Tesla Optimus:未披露,FSD 数据架构可复用 → 积累快
- 中国国家具身智能创新中心:正在建立万亿 token 级具身数据基础设施
跨形态迁移
一个大难点:A 机器人上训的模型能用在 B 机器人吗? - RT-X 项目证明有跨形态迁移性,但效果大打折扣 - Physical Intelligence 的 π0 设计时考虑了 action tokenization 跨形态兼容 - 2026 的关键问题:跨形态是否足够好到让"一个模型驱动所有机器人"成为产品现实
用 Scaling Laws 看 RFM
(参考 Scaling Laws 框架)
- LLM 的 Scaling Law 在 RFM 上部分成立:加数据 + 加算力 → 能力上升
- 但:RFM 的 data scaling 远未饱和——可能一旦数据规模上来 10-100x,能力跃升明显
- Compute overhang:RFM 的 compute overhang 非常大(当前训练算力远小于可用算力)
这意味着 2026-2027 可能看到 RFM 的"GPT-3 时刻"——数据 + 算力规模突然到阈值时能力跃迁。
能力基准
| 基准 | 测什么 | 头部成绩(2025 末) |
|---|---|---|
| RT-2 / CALVIN | 桌面操作 | 80-95%(已见任务) |
| RLBench | 多任务仿真 | 60-80% |
| BEHAVIOR-1k (Stanford) | 家庭长时程 | 30-50% |
| LIBERO | 任务泛化 | 70-85%(已见),<30%(零样本) |
核心 gap:长时程 × 零样本 × 高成功率——三个维度同时满足仍是研究问题。
2026 关键变量
- π1(Physical Intelligence 下一代):是否会延续数量级能力提升 → "RFM 的 GPT-3 时刻"
- Gemini Robotics 的公开进展:Google 的开源 / 发布节奏
- NVIDIA GR00T 的生态:Android of robotics?
- 中美差距:中国具身数据基础设施是否真能缩小与 π、Figure 的差距
- 整机厂选择:Tesla / Figure 等整机厂是否会与"纯大脑"派(π / Skild)合并
延伸阅读
- Physical Intelligence blog · π0 / π0.5 技术报告
- Google DeepMind · Gemini Robotics 发布
- NVIDIA · Isaac GR00T platform
- 本站 · 具身智能技术路线 · 人形格局2026 · 数据飞轮 · Physical Intelligence