具身智能数据采集：遥操作 · 仿真 · 真机

最后更新：2026-04-23

具身大模型最稀缺的不是算力，是高质量机器人动作数据。本文梳理三大数据类型的采集流程、成本结构、玩家差异。

一句话结论

遥操作是当前质量最高、成本最可控的数据源，仿真是可扩展性最强的补充，真机部署数据回流是终局 —— 但需要先解决"部署规模化"问题。

硬件： - ALOHA 套件（Stanford 2023 开源）：低成本双手机械臂 + 主从控制 - VR 头显 + 手柄（Meta Quest + Oculus Touch） - 专用操作台：Physical Intelligence、Figure 等自研

流程： 1. 操作员戴 VR 头显看机器人视角 2. 移动手柄 / 机器人从臂 → 主臂复制动作 3. 录制视频 + 动作数据 4. 后处理（对齐、标注）

成本： - 操作员工资：$50-200/小时** - 硬件折旧：$5-20/小时 - 总成本：$60-250/小时**

玩家策略： - Physical Intelligence：自己招操作员，10k+ 小时 - Figure：合作遥操作公司 + 部分自家 - Google RT-X：联合 22 家实验室共享

主流平台（详见 Sim2Real 与仿真平台）： - NVIDIA Isaac / Isaac Lab - MuJoCo / MuJoCo MJX - Genesis（CMU 2024 开源） - Meta Habitat / Unity ML / Drake

流程： 1. 构建虚拟场景（场景设计 / 物体资产） 2. Domain Randomization（随机化光照、材质、摩擦等） 3. 收集仿真数据（scale 无限） 4. Real-to-Sim / Sim-to-Real gap 处理

成本： - 仿真 GPU 时间：$1-10/小时（Genesis 上 RTX 4090 单卡跑 43M FPS） - 场景构建：一次性（10-50k 一个场景）

挑战： - Sim2Real gap：2024-2025 从 50% 缩到 10-15% - 视觉真实性 - 接触力学精度

玩家策略： - NVIDIA GR00T：重仓 Isaac + 合成数据 - Skild AI：多源混合，仿真占大头 - Tesla：复用 FSD 仿真框架 → Optimus

理想模式：

机器人部署到工厂 / 家庭
→ 产生真实世界数据
→ 上传到云端
→ 训练下一代模型
→ 更新机器人
→ 部署规模扩大

现实约束： - 客户不一定允许数据上传（工厂隐私） - 数据质量筛选（有价值 < 10%） - 标注成本

已成立的例子： - Tesla FSD：7M+ 车队每天上传数据 → 训练 → 更新 OTA - Agility Digit：亚马逊 / GXO 仓储部署，数据有限流回 - iRobot Roomba：家庭扫地机数据（但被 Amazon 收购告吹）

未来：Tesla Optimus、Figure BMW 等工厂部署扩大后，数据飞轮才真正启动。

思路：用 YouTube / Ego4D 等人类动作视频做 self-supervised pretraining，然后少量真机 fine-tune。

代表： - Google DeepMind Ego4D（FAIR 开源数据集） - Vid2Robot（CMU 2024） - RoboVLM / LIBERO

优势：接近零成本，scale 到亿小时级视频劣势：无动作标签，只能做 general visual understanding

数据类型	演化阶段
遥操作硬件	Product（ALOHA 等开源后进入 Commodity）
仿真平台	Product（Isaac 收费，Genesis / MuJoCo 开源）
数据回流 pipeline	Genesis（无标准工具链）
视频预训练	Custom-Built（主要学术界尝试）

战略洞察：数据回流 pipeline 是下一代赢家的战场——谁能把"部署 → 数据 → 训练 → 部署"做成自动化 product，谁有复合优势。