机器人数据飞轮:从采集到训练
最后更新:2026-04-23
"数据飞轮"是机器人产业最重要也最被误用的概念之一。LLM 有互联网,机器人没有 —— 所以"从 0 构建数据供给"是机器人公司最核心的战略资产。本文梳理数据来源、飞轮机制、与玩家格局。
一句话结论
机器人数据飞轮有四种主要形态:真机遥操作 · 真机专家 · 仿真合成 · 视频预训练。成本、质量、可扩展性各不同,头部玩家都在用四种的组合。真正的赢家是能建立"数据成本 < 数据价值"闭环的那家。
三条关键要点
- 真机数据成本 $50-500/小时,质量最高但不可扩展
- 仿真数据成本 $1-10/小时,可无限扩张但 Sim2Real gap 限制
- 视频预训练接近零成本但无动作标签,只能辅助
详见 Sim2Real 与仿真平台。
四种数据来源对比
| 来源 | 单小时成本 | 质量 | 可扩展 | 代表使用者 |
|---|---|---|---|---|
| 真机随机探索 | $10-50 | 低 | 中 | 研究室 |
| 真机遥操作(VR/手柄) | $50-200 | 中-高 | 中 | Physical Intelligence、Figure、1X |
| 真机专家采集 | $200-500+ | 高 | 低 | Boston Dynamics、Covariant |
| 仿真 | $1-10 | 随物理保真度变 | 极高 | NVIDIA GR00T、Skild |
| 视频预训练(YouTube) | ~$0 | 低(无动作标签) | 极高 | Google RT 系列(辅助) |
"飞轮"的真实机制
理想状态:
部署机器人 → 采集真实世界数据 → 改进大脑 → 能力更强 → 更多部署 → ...
现实约束: 1. 数据回收率:部署出去的机器人是否允许数据上传?企业客户不一定同意 2. 数据质量筛选:海量原始数据里真正有用的比例低(<10%) 3. 标注成本:即使数据能上传,没有标签也只是 self-supervised pretraining 4. 能力改进速度 vs 硬件迭代:大脑改进了,硬件可能需要重新标定
谁真正有"数据飞轮"
| 公司 | 飞轮是否成立 | 原因 |
|---|---|---|
| Tesla | ✅ | 7M+ Tesla 车队 → 真实驾驶数据 → FSD → Optimus(复用) |
| Boston Dynamics | 🟡 | 部署多、数据质量高,但量不够"飞轮" |
| Physical Intelligence | 🟡 | 数据积累最快(10k+ 小时),但部署规模小 |
| Figure | 🟡 | BMW 等工厂部署数据流回,尚未规模化 |
| Agility(Digit) | ✅ | 亚马逊 / GXO 等仓储部署规模较大 |
| 宇树 | ❌ | 卖硬件,数据多数留在买方(研究所 / 公司),宇树拿不到 |
规律:卖硬件不做大脑的公司(宇树为代表)没有真数据飞轮;自建部署 + 数据采集的才有。
用 Wardley Maps 看机器人数据
(参考 Wardley Maps)
| 组件 | 演化阶段 |
|---|---|
| 公开机器人数据集(RT-X、BEHAVIOR) | Commodity |
| 遥操作工具 / VR | Product |
| 真机专家采集服务 | Custom-Built |
| 仿真数据管道 | Custom-Built → Product(Genesis 等开源加速) |
| 数据飞轮机制 | Genesis |
战略含义:数据飞轮本身还在 Genesis 阶段——谁第一个把它做成可复用产品(把"部署 → 数据 → 模型 → 部署"自动化),谁在这一代胜出。
主要策略对比
策略 A · 真机为主(Physical Intelligence 路线)
- 招募遥操作员(VR 头显 + 手柄)
- 10,000+ 小时数据
- 优点:质量最高
- 缺点:成本高,不可无限扩展
策略 B · 仿真为主(NVIDIA GR00T 路线)
- Isaac Sim / Genesis 大规模仿真
- 100k+ 虚拟小时
- 优点:几乎无限
- 缺点:Sim2Real gap 限制
策略 C · 数据闭环(Tesla / Figure 路线)
- 部署到工厂 / 家庭,真实使用产生数据
- 优点:数据真实、自动、规模化
- 缺点:需要先大规模部署(鸡生蛋问题)
策略 D · 视频预训练(Google DeepMind RT 系列路线)
- YouTube / Ego4D 等海量视频
- 先预训练理解,再用少量动作数据 fine-tune
- 优点:低成本基础认知
- 缺点:不能直接给动作
头部都用"全部四种的组合"
视频预训练 → 大规模仿真 → 真机遥操作 fine-tune → 部署后数据回流
2026 关键变量
- π 下一代模型(π1) 证明 10k+ 小时真机数据的 Scaling
- Genesis 生态扩张:仿真数据质量突破
- Tesla Optimus 部署规模:如果真到几千台工厂,数据飞轮正式启动
- 中国国家具身智能创新中心产出:集中式遥操作基地的数据流