具身基础模型的 Scaling Law 讨论

最后更新：2026-04-23

LLM 有清晰的 Scaling Law（Kaplan 2020 / Chinchilla 2022）。具身大模型有 Scaling Law 吗？目前还是"部分有，部分无"的开放问题。本文梳理证据与争论。

一句话结论

具身基础模型有初步的 scaling 迹象（π0 → π0.5 能力显著提升），但数据瓶颈远早于算力瓶颈 —— LLM 范式的 scaling law 不能直接套用。2026-2027 年的关键观察是 Physical Intelligence 下一代模型是否继续延续 scaling 曲线。

三条关键要点

LLM scaling 假设在具身上部分失效：不只是"加算力"，还要"加匹配的高质量数据"
数据供给是瓶颈：10k 小时真机数据 → 100k 小时以上的规模扩展，不是算力问题，是成本问题
初步正向迹象：π0 → π0.5（同一架构，更多数据）显示能力确实在 scale

LLM Scaling Law 回顾

（参考 Scaling Laws 框架）

Kaplan 2020：Loss ~ C^(-α)，模型 / 参数 / token 三者 scale
Chinchilla 2022：最优比例是参数 : token ≈ 1 : 20
核心假设：更多数据和算力 = 更好的模型，可预测

具身的三个挑战

1. 数据规模与质量权衡

LLM：互联网几乎免费，质量参差但量足够
具身：真机数据 $50-500/小时，10k+ 小时 = $500k-5M 成本
加 10x 数据 = 加 10x 成本，不是"加算力"可以解决

2. 任务分布偏差

LLM 训练数据包含"所有人类写过的东西"
具身数据通常集中在特定场景（桌面操作、抓取）
同领域 scaling 有效，跨领域泛化有限

3. 硬件差异

同一神经网络在不同机器人上表现大幅差异
真正的 "scaling" 需要跨硬件 scale

π 系列的初步证据

π0 (2024-10) vs π0.5 (2025-10)

相同架构（都是 VLA + flow matching）
更多数据（估计 3-5x）
结果：
- 已见任务成功率从 ~80% 到 ~92%
- 泛化能力显著提升（π0.5 能做 π0 见过类似但不完全相同的任务）
- 长时程任务（30 步以上）成功率从 15% 到 40%

这是具身 scaling law 成立的最强证据。但能否继续 scale 到 π1 / π2 是开放问题。

Google RT 系列

RT-1 → RT-2 → RT-X：从单机器人到跨 22 种机器人
能力确实随数据规模 scale
但每次都需要算法改进（架构变化），不是纯 data scaling

不同路线的 scaling 预期

VLA 端到端

scaling 假设：加数据 + 加算力 → 更好
证据：π0 → π0.5 ✅
瓶颈：真机数据采集成本

VLM + 动作头分层

scaling 假设：顶层 VLM 随 LLM 一起 scale，底层控制需要专门训练
证据：Figure Helix 表现好，但数据支撑不透明
瓶颈：顶层 VLM 已经是 LLM 的 free ride，底层控制的 scaling 未验证

World Model

scaling 假设：视频数据海量，可以不用真机动作标签
证据：V-JEPA / Dreamer 有一些正向结果，但远未证明
瓶颈：完全不清楚是不是正确路径

Compute Overhang