跳转至

具身智能数据采集:遥操作 · 仿真 · 真机

最后更新:2026-04-23

具身大模型最稀缺的不是算力,是高质量机器人动作数据。本文梳理三大数据类型的采集流程、成本结构、玩家差异。

一句话结论

遥操作是当前质量最高、成本最可控的数据源,仿真是可扩展性最强的补充,真机部署数据回流是终局 —— 但需要先解决"部署规模化"问题。

三条关键要点

  1. 遥操作成本:VR 头显 + 机械臂操作员,每小时 $50-200(发达国家 $100-200,中国 $50-80)
  2. 仿真优势:可并行跑 10,000 个虚拟场景,相当于 10,000 倍真实时间
  3. 部署数据回流需要 先规模部署 → 鸡生蛋问题,目前只 Tesla / Agility 部分成立

三大采集方式详解

遥操作(Teleoperation)

硬件: - ALOHA 套件(Stanford 2023 开源):低成本双手机械臂 + 主从控制 - VR 头显 + 手柄(Meta Quest + Oculus Touch) - 专用操作台:Physical Intelligence、Figure 等自研

流程: 1. 操作员戴 VR 头显看机器人视角 2. 移动手柄 / 机器人从臂 → 主臂复制动作 3. 录制视频 + 动作数据 4. 后处理(对齐、标注)

成本: - 操作员工资:\(50-200/小时** - 硬件折旧:\)5-20/小时 - 总成本:$60-250/小时**

玩家策略: - Physical Intelligence:自己招操作员,10k+ 小时 - Figure:合作遥操作公司 + 部分自家 - Google RT-X:联合 22 家实验室共享

仿真(Simulation)

主流平台(详见 Sim2Real 与仿真平台): - NVIDIA Isaac / Isaac Lab - MuJoCo / MuJoCo MJX - Genesis(CMU 2024 开源) - Meta Habitat / Unity ML / Drake

流程: 1. 构建虚拟场景(场景设计 / 物体资产) 2. Domain Randomization(随机化光照、材质、摩擦等) 3. 收集仿真数据(scale 无限) 4. Real-to-Sim / Sim-to-Real gap 处理

成本: - 仿真 GPU 时间:$1-10/小时(Genesis 上 RTX 4090 单卡跑 43M FPS) - 场景构建:一次性(10-50k 一个场景)

挑战: - Sim2Real gap:2024-2025 从 50% 缩到 10-15% - 视觉真实性 - 接触力学精度

玩家策略: - NVIDIA GR00T:重仓 Isaac + 合成数据 - Skild AI:多源混合,仿真占大头 - Tesla:复用 FSD 仿真框架 → Optimus

真机部署数据回流

理想模式

机器人部署到工厂 / 家庭
→ 产生真实世界数据
→ 上传到云端
→ 训练下一代模型
→ 更新机器人
→ 部署规模扩大

现实约束: - 客户不一定允许数据上传(工厂隐私) - 数据质量筛选(有价值 < 10%) - 标注成本

已成立的例子: - Tesla FSD:7M+ 车队每天上传数据 → 训练 → 更新 OTA - Agility Digit:亚马逊 / GXO 仓储部署,数据有限流回 - iRobot Roomba:家庭扫地机数据(但被 Amazon 收购告吹)

未来:Tesla Optimus、Figure BMW 等工厂部署扩大后,数据飞轮才真正启动。

人类视频预训练(辅助数据源)

思路:用 YouTube / Ego4D 等人类动作视频做 self-supervised pretraining,然后少量真机 fine-tune。

代表: - Google DeepMind Ego4D(FAIR 开源数据集) - Vid2Robot(CMU 2024) - RoboVLM / LIBERO

优势:接近零成本,scale 到亿小时级视频 劣势:无动作标签,只能做 general visual understanding

Wardley Maps 框架

数据类型 演化阶段
遥操作硬件 Product(ALOHA 等开源后进入 Commodity)
仿真平台 Product(Isaac 收费,Genesis / MuJoCo 开源)
数据回流 pipeline Genesis(无标准工具链)
视频预训练 Custom-Built(主要学术界尝试)

战略洞察数据回流 pipeline 是下一代赢家的战场——谁能把"部署 → 数据 → 训练 → 部署"做成自动化 product,谁有复合优势。

2026 关键变量

  1. π 新数据规模:如果 π 披露 20k+ 小时真机数据,scaling law 更扎实
  2. 自动遥操作数据采集公司:类似 Scale AI 对 LLM 标注的角色,可能出现在具身数据
  3. Tesla Optimus 数据回流:真正启动后数据量级爆发
  4. 跨形态数据池扩张:Open X-Embodiment 扩到 100 家实验室?

延伸阅读