具身智能发展里程碑
概述
具身智能的发展历程跨越了半个多世纪,从早期的符号主义机器人到如今的基础模型驱动的通用机器人。本文按时间线梳理关键里程碑事件,分析每个突破的技术创新及其对领域的深远影响。
时间线总览
timeline
title 具身智能发展历程
section 萌芽期 (1960s-1990s)
1969 : Shakey - 首个通用移动机器人
1973 : WABOT-1 - 首个全尺寸人形机器人
1979 : Stanford Cart - 视觉导航先驱
section 发展期 (2000s-2010s)
2000 : ASIMO - 仿人双足行走
2005 : BigDog - 动态四足平衡
2015 : DRC - 灾难救援机器人竞赛
section 爆发期 (2019-至今)
2019 : OpenAI 魔方 - 灵巧操作+Sim2Real
2022 : RT-1 - 大规模机器人学习
2023 : RT-2 - VLM到VLA迁移
2024 : Open X-Embodiment + pi0
1. Shakey(1969)— 通用移动机器人的开端
背景
由 SRI International 研发,Shakey 是世界上第一个能够推理自身行为的通用移动机器人。
技术创新
- STRIPS 规划器:首个自动规划系统,定义了 precondition-effect 形式化框架
- 感知-推理-行动循环:将 AI 规划与物理世界执行结合
- 视觉导航:使用电视摄像头和碰撞传感器进行环境感知
历史意义
Shakey 证明了符号推理可以驱动物理世界中的行动。STRIPS 的规划形式化至今仍是 PDDL 的理论基础。
2. WABOT-1(1973)— 首个全尺寸人形机器人
背景
由日本早稻田大学研发,WABOT-1 是世界上第一个全尺寸仿人机器人。
技术创新
- 双足步行系统:虽然速度极慢,但实现了静态平衡行走
- 视觉系统:使用两个外部摄像头进行物体识别和距离测量
- 手部抓取:触觉传感器驱动的简单抓取
- 语言交互:能用日语进行简单对话
历史意义
WABOT-1 开创了人形机器人研究范式,证明了构建全尺寸仿人系统的可行性,为后续 ASIMO 等研究奠定基础。
3. Stanford Cart(1979)— 视觉自主导航
背景
由 Hans Moravec 在斯坦福大学开发,Stanford Cart 是早期视觉导航的代表性工作。
技术创新
- 立体视觉:通过单个摄像头在不同位置拍摄获取深度信息
- 障碍物检测:基于视觉的障碍物避让
- 路径规划:在障碍物环境中自主规划路径
历史意义
虽然移动速度极慢(穿越 20 米房间需要约 5 小时),Stanford Cart 证明了纯视觉信息可以支持自主导航,这一思想在 40 年后的 Tesla FSD 和具身导航中重新绽放。
4. ASIMO(2000)— 仿人双足行走的突破
背景
Honda 历经 14 年研发推出的人形机器人 ASIMO(Advanced Step in Innovative Mobility)。
技术创新
- 动态步行:基于 ZMP(Zero Moment Point)的动态平衡行走 $\(\text{ZMP}: \quad x_{zmp} = \frac{\sum_i m_i(\ddot{z}_i + g)x_i - \sum_i m_i \ddot{x}_i z_i}{\sum_i m_i(\ddot{z}_i + g)}\)$
- 楼梯攀登:能上下楼梯
- 手势识别:识别简单手势指令
- 自主避障:实时路径调整
历史意义
ASIMO 证明了人形机器人可以在人类环境中进行动态、稳定的移动。ZMP 方法成为此后十余年人形运动控制的主流范式。
5. BigDog(2005)— 动态四足运动
背景
Boston Dynamics 为美国军方开发的四足机器人。
技术创新
- 动态平衡:液压驱动,能在崎岖地形保持平衡
- 扰动恢复:被踢后能恢复平衡(标志性演示视频)
- 地形自适应:适应冰面、斜坡、碎石等多种地形
- 负载能力:可携带约 150kg 载荷
历史意义
BigDog 展示了机器人可以实现接近动物水平的动态运动能力,开创了现代动态腿式运动的研究方向,后续演化为 Spot、Atlas 等明星产品。
6. DARPA Robotics Challenge(2015)— 灾难救援机器人
背景
DARPA 为福岛核事故善后而发起的机器人竞赛,要求机器人在灾难环境中完成驾驶、开门、过废墟、关阀门等任务。
技术创新
- 全身运动规划:复杂非结构化环境中的运动
- 人机协作遥操作:远程操控与自主决策结合
- 多模态感知融合:LiDAR + 视觉 + 力觉
- 多任务通用平台:同一平台完成多种异构任务
关键发现
大多数机器人在简单任务(如开门)上频繁失败,暴露了当时机器人系统的鲁棒性严重不足——这直接推动了后续学习方法的引入。
历史意义
DRC 证明了传统工程方法在非结构化环境中的局限性,成为机器人学从纯工程转向学习驱动的重要转折点。
7. OpenAI Rubik's Cube(2019)— Sim-to-Real 与灵巧操作
背景
OpenAI 使用强化学习训练灵巧手(Shadow Hand)在真实世界中还原魔方。
技术创新
- 大规模域随机化(Domain Randomization):在仿真中随机化 \(>100\) 个物理参数 $\(\pi^* = \arg\max_\pi \mathbb{E}_{\xi \sim P(\xi)} \left[ \sum_t r(s_t, a_t) \right]\)$ 其中 \(\xi\) 为随机化参数向量
- 自动域随机化(ADR):自动调节随机化范围
- 记忆增强策略:LSTM 策略网络处理部分可观测
- 指尖操作:24 个自由度的精细控制
历史意义
这一工作证明了 Sim-to-Real 迁移可以解决极其精细的操作任务,域随机化成为此后机器人 RL 的标准技术。同时暴露了问题:训练所需的计算资源极其庞大。
8. RT-1(2022)— 大规模机器人学习
背景
Google DeepMind 发布的 Robotics Transformer,使用 130k 真实演示训练。
技术创新
- Tokenized Actions:将连续动作离散化为 token
- FiLM-conditioned EfficientNet:视觉编码器通过 FiLM 层融合语言指令 $\(\text{FiLM}(x) = \gamma(l) \odot x + \beta(l)\)$
- 大规模真实数据:13 台机器人、17 个月、130k+ 轨迹
- 多任务学习:单一模型处理 700+ 任务
历史意义
RT-1 证明了扩大数据规模和模型容量对机器人策略的有效性,开创了"机器人学习的 Scaling Law"研究方向。
9. RT-2(2023)— VLM 到 VLA 的迁移
背景
Google DeepMind 将视觉语言模型(VLM)直接微调为视觉语言动作模型(VLA)。
技术创新
- 动作作为文本 Token:将机器人动作编码为自然语言 token 序列
- VLM 知识迁移:互联网预训练的视觉-语言知识直接迁移到机器人控制
- 涌现的推理能力:能理解从未见过的语义指令(如"把垃圾扔到垃圾桶")
- 符号推理 + 物理操作:将符号推理和物理控制统一在单一模型中
历史意义
RT-2 证明了 VLM 中的互联网知识可以 grounding 到物理世界,VLA 范式由此确立,成为后续 Octo、pi0 等模型的基础框架。
10. Open X-Embodiment(2024)— 跨具身迁移
背景
由 33 个研究机构联合发布,包含 22 种机器人、100 万+ 真实轨迹的数据集及 RT-X 模型。
技术创新
- 统一数据格式:RLDS(Reinforcement Learning Datasets)标准
- 跨机器人迁移:在多种不同形态的机器人间共享训练数据
- 正迁移验证:实验证明跨具身数据能提升单个机器人的性能
- 开放生态:开源数据集和模型
历史意义
Open X-Embodiment 开创了具身智能的开放数据生态,证明了跨具身迁移学习的可行性,类比 NLP 中 Common Crawl 对语言模型的意义。
11. pi0(2024)— 通用机器人基础模型
背景
Physical Intelligence 公司推出的通用机器人策略模型。
技术创新
- VLM 骨干网络:基于预训练 VLM 作为感知和推理基础
- Flow Matching 动作头: $\(v_\theta(x_t, t) = \frac{dx_t}{dt}, \quad x_1 = x_0 + \int_0^1 v_\theta(x_t, t) dt\)$ 使用流匹配替代扩散模型生成动作
- 多任务泛化:单一模型执行叠衣服、整理桌面、装箱等多种任务
- 零样本迁移:在未见过的场景和物体上工作
历史意义
pi0 代表了通用机器人基础模型的新范式,将大规模预训练 + 灵活微调的 paradigm 从语言领域成功引入机器人领域。
12. 里程碑对比总结
| 里程碑 | 年份 | 证明了什么 | 核心方法论 |
|---|---|---|---|
| Shakey | 1969 | 符号推理可驱动物理行动 | STRIPS 规划 |
| WABOT-1 | 1973 | 全尺寸人形机器人可行 | 工程集成 |
| Stanford Cart | 1979 | 视觉可支持自主导航 | 立体视觉 |
| ASIMO | 2000 | 人形动态行走 | ZMP 控制 |
| BigDog | 2005 | 动物级动态运动 | 液压 + 反馈控制 |
| DRC | 2015 | 传统方法鲁棒性不足 | 遥操作 + 自主 |
| Rubik's Cube | 2019 | Sim2Real + 灵巧操作 | RL + 域随机化 |
| RT-1 | 2022 | 数据规模定律 | Transformer + 大数据 |
| RT-2 | 2023 | VLM→VLA 迁移 | 动作即 Token |
| Open X-Embodiment | 2024 | 跨具身迁移 | 开放数据生态 |
| pi0 | 2024 | 通用机器人基础模型 | VLM + Flow Matching |
13. 未来展望
根据当前趋势,下一个可能的里程碑:
- 真正通用的家庭机器人:能在开放家庭环境完成多种日常任务
- 自主学习的机器人:无需人类演示,通过探索和交互自主习得技能
- 多机器人协作:多个异构机器人协同完成复杂任务
- 长期自主运行:机器人在真实环境中连续运行数月而不需人工干预
参考资料
- Nilsson, N. J. "Shakey the Robot." SRI International, 1984
- Ahn et al., "Do As I Can, Not As I Say: Grounding Language in Robotic Affordances," 2022
- Brohan et al., "RT-1" and "RT-2," 2022-2023
- Open X-Embodiment Collaboration, 2024
- Black et al., "pi0," 2024
相关笔记: