跳转至

机器人数据飞轮:从采集到训练

最后更新:2026-04-23

"数据飞轮"是机器人产业最重要也最被误用的概念之一。LLM 有互联网,机器人没有 —— 所以"从 0 构建数据供给"是机器人公司最核心的战略资产。本文梳理数据来源、飞轮机制、与玩家格局。

一句话结论

机器人数据飞轮有四种主要形态:真机遥操作 · 真机专家 · 仿真合成 · 视频预训练。成本、质量、可扩展性各不同,头部玩家都在用四种的组合。真正的赢家是能建立"数据成本 < 数据价值"闭环的那家。

三条关键要点

  1. 真机数据成本 $50-500/小时,质量最高但不可扩展
  2. 仿真数据成本 $1-10/小时,可无限扩张但 Sim2Real gap 限制
  3. 视频预训练接近零成本但无动作标签,只能辅助

详见 Sim2Real 与仿真平台

四种数据来源对比

来源 单小时成本 质量 可扩展 代表使用者
真机随机探索 $10-50 研究室
真机遥操作(VR/手柄) $50-200 中-高 Physical Intelligence、Figure、1X
真机专家采集 $200-500+ Boston Dynamics、Covariant
仿真 $1-10 随物理保真度变 极高 NVIDIA GR00T、Skild
视频预训练(YouTube) ~$0 低(无动作标签) 极高 Google RT 系列(辅助)

"飞轮"的真实机制

理想状态

部署机器人 → 采集真实世界数据 → 改进大脑 → 能力更强 → 更多部署 → ...

现实约束: 1. 数据回收率:部署出去的机器人是否允许数据上传?企业客户不一定同意 2. 数据质量筛选:海量原始数据里真正有用的比例低(<10%) 3. 标注成本:即使数据能上传,没有标签也只是 self-supervised pretraining 4. 能力改进速度 vs 硬件迭代:大脑改进了,硬件可能需要重新标定

谁真正有"数据飞轮"

公司 飞轮是否成立 原因
Tesla 7M+ Tesla 车队 → 真实驾驶数据 → FSD → Optimus(复用)
Boston Dynamics 🟡 部署多、数据质量高,但量不够"飞轮"
Physical Intelligence 🟡 数据积累最快(10k+ 小时),但部署规模小
Figure 🟡 BMW 等工厂部署数据流回,尚未规模化
Agility(Digit) 亚马逊 / GXO 等仓储部署规模较大
宇树 卖硬件,数据多数留在买方(研究所 / 公司),宇树拿不到

规律卖硬件不做大脑的公司(宇树为代表)没有真数据飞轮;自建部署 + 数据采集的才有。

用 Wardley Maps 看机器人数据

(参考 Wardley Maps

组件 演化阶段
公开机器人数据集(RT-X、BEHAVIOR) Commodity
遥操作工具 / VR Product
真机专家采集服务 Custom-Built
仿真数据管道 Custom-Built → Product(Genesis 等开源加速)
数据飞轮机制 Genesis

战略含义数据飞轮本身还在 Genesis 阶段——谁第一个把它做成可复用产品(把"部署 → 数据 → 模型 → 部署"自动化),谁在这一代胜出。

主要策略对比

策略 A · 真机为主(Physical Intelligence 路线)

  • 招募遥操作员(VR 头显 + 手柄)
  • 10,000+ 小时数据
  • 优点:质量最高
  • 缺点:成本高,不可无限扩展

策略 B · 仿真为主(NVIDIA GR00T 路线)

  • Isaac Sim / Genesis 大规模仿真
  • 100k+ 虚拟小时
  • 优点:几乎无限
  • 缺点:Sim2Real gap 限制

策略 C · 数据闭环(Tesla / Figure 路线)

  • 部署到工厂 / 家庭,真实使用产生数据
  • 优点:数据真实、自动、规模化
  • 缺点:需要先大规模部署(鸡生蛋问题)

策略 D · 视频预训练(Google DeepMind RT 系列路线)

  • YouTube / Ego4D 等海量视频
  • 先预训练理解,再用少量动作数据 fine-tune
  • 优点:低成本基础认知
  • 缺点:不能直接给动作

头部都用"全部四种的组合"

视频预训练 → 大规模仿真 → 真机遥操作 fine-tune → 部署后数据回流

2026 关键变量

  1. π 下一代模型(π1) 证明 10k+ 小时真机数据的 Scaling
  2. Genesis 生态扩张:仿真数据质量突破
  3. Tesla Optimus 部署规模:如果真到几千台工厂,数据飞轮正式启动
  4. 中国国家具身智能创新中心产出:集中式遥操作基地的数据流

延伸阅读