跳转至

具身基础模型的 Scaling Law 讨论

最后更新:2026-04-23

LLM 有清晰的 Scaling Law(Kaplan 2020 / Chinchilla 2022)。具身大模型有 Scaling Law 吗?目前还是"部分有,部分无"的开放问题。本文梳理证据与争论。

一句话结论

具身基础模型有初步的 scaling 迹象(π0 → π0.5 能力显著提升),但数据瓶颈远早于算力瓶颈 —— LLM 范式的 scaling law 不能直接套用。2026-2027 年的关键观察是 Physical Intelligence 下一代模型是否继续延续 scaling 曲线。

三条关键要点

  1. LLM scaling 假设在具身上部分失效:不只是"加算力",还要"加匹配的高质量数据"
  2. 数据供给是瓶颈:10k 小时真机数据 → 100k 小时以上的规模扩展,不是算力问题,是成本问题
  3. 初步正向迹象:π0 → π0.5(同一架构,更多数据)显示能力确实在 scale

LLM Scaling Law 回顾

(参考 Scaling Laws 框架

  • Kaplan 2020:Loss ~ C^(-α),模型 / 参数 / token 三者 scale
  • Chinchilla 2022:最优比例是参数 : token ≈ 1 : 20
  • 核心假设:更多数据和算力 = 更好的模型,可预测

具身的三个挑战

1. 数据规模与质量权衡

  • LLM:互联网几乎免费,质量参差但量足够
  • 具身:真机数据 $50-500/小时,10k+ 小时 = $500k-5M 成本
  • 加 10x 数据 = 加 10x 成本,不是"加算力"可以解决

2. 任务分布偏差

  • LLM 训练数据包含"所有人类写过的东西"
  • 具身数据通常集中在特定场景(桌面操作、抓取)
  • 同领域 scaling 有效,跨领域泛化有限

3. 硬件差异

  • 同一神经网络在不同机器人上表现大幅差异
  • 真正的 "scaling" 需要跨硬件 scale

π 系列的初步证据

π0 (2024-10) vs π0.5 (2025-10)

  • 相同架构(都是 VLA + flow matching)
  • 更多数据(估计 3-5x)
  • 结果:
    • 已见任务成功率从 ~80% 到 ~92%
    • 泛化能力显著提升(π0.5 能做 π0 见过类似但不完全相同的任务)
    • 长时程任务(30 步以上)成功率从 15% 到 40%

这是具身 scaling law 成立的最强证据。但能否继续 scale 到 π1 / π2 是开放问题。

Google RT 系列

  • RT-1 → RT-2 → RT-X:从单机器人到跨 22 种机器人
  • 能力确实随数据规模 scale
  • 但每次都需要算法改进(架构变化),不是纯 data scaling

不同路线的 scaling 预期

VLA 端到端

  • scaling 假设:加数据 + 加算力 → 更好
  • 证据:π0 → π0.5 ✅
  • 瓶颈:真机数据采集成本

VLM + 动作头分层

  • scaling 假设:顶层 VLM 随 LLM 一起 scale,底层控制需要专门训练
  • 证据:Figure Helix 表现好,但数据支撑不透明
  • 瓶颈:顶层 VLM 已经是 LLM 的 free ride,底层控制的 scaling 未验证

World Model

  • scaling 假设:视频数据海量,可以不用真机动作标签
  • 证据:V-JEPA / Dreamer 有一些正向结果,但远未证明
  • 瓶颈:完全不清楚是不是正确路径

Compute Overhang

(参考 Scaling Laws 框架

具身 compute overhang 比 LLM 更严重: - GPU 可用算力远超当前训练使用 - 但数据供给不够,无法吃掉 compute - 意味着:如果某天数据突然跃升 10x(例如机器人开始大规模部署 → 真实世界数据自动回流),能力跃升会非常快

这是 "Tesla Optimus 量产" 如果成功会带来的二阶效应

基准率与预期投资

历史上"新领域的 scaling law": - ImageNet 时代:的确有 scaling,但不是连续的(架构变化带来跳跃) - LLM 时代:scaling 非常连续,Transformer 架构稳定

具身可能更像 ImageNet 时代 —— 需要架构创新 + 数据扩展双管齐下,不是单纯 scale 算力。

2026 关键变量

  1. π1 发布:如果延续 π0 → π0.5 的能力 scaling 曲线 → 具身 scaling law 成立的确凿证据
  2. 跨形态通用模型:一个 checkpoint 在 N 种机器人上都能跑
  3. 真实世界部署数据:Tesla / Figure 工厂 / Optimus 家用等部署规模化后,数据回流
  4. 新架构出现:World Model 方向如果有突破,可能打破当前 VLA 主导

延伸阅读