具身智能发展里程碑

概述

具身智能的发展历程跨越了半个多世纪，从早期的符号主义机器人到如今的基础模型驱动的通用机器人。本文按时间线梳理关键里程碑事件，分析每个突破的技术创新及其对领域的深远影响。

时间线总览

timeline
    title 具身智能发展历程
    section 萌芽期 (1960s-1990s)
        1969 : Shakey - 首个通用移动机器人
        1973 : WABOT-1 - 首个全尺寸人形机器人
        1979 : Stanford Cart - 视觉导航先驱
    section 发展期 (2000s-2010s)
        2000 : ASIMO - 仿人双足行走
        2005 : BigDog - 动态四足平衡
        2015 : DRC - 灾难救援机器人竞赛
    section 爆发期 (2019-至今)
        2019 : OpenAI 魔方 - 灵巧操作+Sim2Real
        2022 : RT-1 - 大规模机器人学习
        2023 : RT-2 - VLM到VLA迁移
        2024 : Open X-Embodiment + pi0

1. Shakey（1969）— 通用移动机器人的开端

背景

由 SRI International 研发，Shakey 是世界上第一个能够推理自身行为的通用移动机器人。

技术创新

STRIPS 规划器：首个自动规划系统，定义了 precondition-effect 形式化框架
感知-推理-行动循环：将 AI 规划与物理世界执行结合
视觉导航：使用电视摄像头和碰撞传感器进行环境感知

历史意义

Shakey 证明了符号推理可以驱动物理世界中的行动。STRIPS 的规划形式化至今仍是 PDDL 的理论基础。

2. WABOT-1（1973）— 首个全尺寸人形机器人

背景

由日本早稻田大学研发，WABOT-1 是世界上第一个全尺寸仿人机器人。

技术创新

双足步行系统：虽然速度极慢，但实现了静态平衡行走
视觉系统：使用两个外部摄像头进行物体识别和距离测量
手部抓取：触觉传感器驱动的简单抓取
语言交互：能用日语进行简单对话

历史意义

WABOT-1 开创了人形机器人研究范式，证明了构建全尺寸仿人系统的可行性，为后续 ASIMO 等研究奠定基础。

3. Stanford Cart（1979）— 视觉自主导航

背景

由 Hans Moravec 在斯坦福大学开发，Stanford Cart 是早期视觉导航的代表性工作。

技术创新

立体视觉：通过单个摄像头在不同位置拍摄获取深度信息
障碍物检测：基于视觉的障碍物避让
路径规划：在障碍物环境中自主规划路径

历史意义

虽然移动速度极慢（穿越 20 米房间需要约 5 小时），Stanford Cart 证明了纯视觉信息可以支持自主导航，这一思想在 40 年后的 Tesla FSD 和具身导航中重新绽放。

4. ASIMO（2000）— 仿人双足行走的突破

背景

Honda 历经 14 年研发推出的人形机器人 ASIMO（Advanced Step in Innovative Mobility）。

技术创新

动态步行：基于 ZMP（Zero Moment Point）的动态平衡行走 $$\text{ZMP}: \quad x_{zmp} = \frac{\sum_i m_i(\ddot{z}_i + g)x_i - \sum_i m_i \ddot{x}_i z_i}{\sum_i m_i(\ddot{z}_i + g)}$$
楼梯攀登：能上下楼梯
手势识别：识别简单手势指令
自主避障：实时路径调整

历史意义

ASIMO 证明了人形机器人可以在人类环境中进行动态、稳定的移动。ZMP 方法成为此后十余年人形运动控制的主流范式。

5. BigDog（2005）— 动态四足运动

背景

Boston Dynamics 为美国军方开发的四足机器人。

技术创新

动态平衡：液压驱动，能在崎岖地形保持平衡
扰动恢复：被踢后能恢复平衡（标志性演示视频）
地形自适应：适应冰面、斜坡、碎石等多种地形
负载能力：可携带约 150kg 载荷

历史意义

BigDog 展示了机器人可以实现接近动物水平的动态运动能力，开创了现代动态腿式运动的研究方向，后续演化为 Spot、Atlas 等明星产品。

6. DARPA Robotics Challenge（2015）— 灾难救援机器人

背景

DARPA 为福岛核事故善后而发起的机器人竞赛，要求机器人在灾难环境中完成驾驶、开门、过废墟、关阀门等任务。

技术创新

全身运动规划：复杂非结构化环境中的运动
人机协作遥操作：远程操控与自主决策结合
多模态感知融合：LiDAR + 视觉 + 力觉
多任务通用平台：同一平台完成多种异构任务

关键发现

大多数机器人在简单任务（如开门）上频繁失败，暴露了当时机器人系统的鲁棒性严重不足——这直接推动了后续学习方法的引入。

历史意义

DRC 证明了传统工程方法在非结构化环境中的局限性，成为机器人学从纯工程转向学习驱动的重要转折点。

7. OpenAI Rubik's Cube（2019）— Sim-to-Real 与灵巧操作

背景

OpenAI 使用强化学习训练灵巧手（Shadow Hand）在真实世界中还原魔方。

技术创新

大规模域随机化（Domain Randomization）：在仿真中随机化 $>100$ 个物理参数 $$\pi^* = \arg\max_\pi \mathbb{E}_{\xi \sim P(\xi)} \left[ \sum_t r(s_t, a_t) \right]$$ 其中 $\xi$ 为随机化参数向量
自动域随机化（ADR）：自动调节随机化范围
记忆增强策略：LSTM 策略网络处理部分可观测
指尖操作：24 个自由度的精细控制

历史意义

这一工作证明了 Sim-to-Real 迁移可以解决极其精细的操作任务，域随机化成为此后机器人 RL 的标准技术。同时暴露了问题：训练所需的计算资源极其庞大。

8. RT-1（2022）— 大规模机器人学习

背景

Google DeepMind 发布的 Robotics Transformer，使用 130k 真实演示训练。

技术创新

Tokenized Actions：将连续动作离散化为 token
FiLM-conditioned EfficientNet：视觉编码器通过 FiLM 层融合语言指令 $$\text{FiLM}(x) = \gamma(l) \odot x + \beta(l)$$
大规模真实数据：13 台机器人、17 个月、130k+ 轨迹
多任务学习：单一模型处理 700+ 任务

历史意义

RT-1 证明了扩大数据规模和模型容量对机器人策略的有效性，开创了"机器人学习的 Scaling Law"研究方向。

9. RT-2（2023）— VLM 到 VLA 的迁移

背景

Google DeepMind 将视觉语言模型（VLM）直接微调为视觉语言动作模型（VLA）。

技术创新

动作作为文本 Token：将机器人动作编码为自然语言 token 序列
VLM 知识迁移：互联网预训练的视觉-语言知识直接迁移到机器人控制
涌现的推理能力：能理解从未见过的语义指令（如"把垃圾扔到垃圾桶"）
符号推理 + 物理操作：将符号推理和物理控制统一在单一模型中

历史意义

RT-2 证明了 VLM 中的互联网知识可以 grounding 到物理世界，VLA 范式由此确立，成为后续 Octo、pi0 等模型的基础框架。

10. Open X-Embodiment（2024）— 跨具身迁移

背景

由 33 个研究机构联合发布，包含 22 种机器人、100 万+ 真实轨迹的数据集及 RT-X 模型。

技术创新

统一数据格式：RLDS（Reinforcement Learning Datasets）标准
跨机器人迁移：在多种不同形态的机器人间共享训练数据
正迁移验证：实验证明跨具身数据能提升单个机器人的性能
开放生态：开源数据集和模型

历史意义

Open X-Embodiment 开创了具身智能的开放数据生态，证明了跨具身迁移学习的可行性，类比 NLP 中 Common Crawl 对语言模型的意义。

11. pi0（2024）— 通用机器人基础模型

背景

Physical Intelligence 公司推出的通用机器人策略模型。

技术创新

VLM 骨干网络：基于预训练 VLM 作为感知和推理基础
Flow Matching 动作头： $$v_\theta(x_t, t) = \frac{dx_t}{dt}, \quad x_1 = x_0 + \int_0^1 v_\theta(x_t, t) dt$$ 使用流匹配替代扩散模型生成动作
多任务泛化：单一模型执行叠衣服、整理桌面、装箱等多种任务
零样本迁移：在未见过的场景和物体上工作

历史意义

pi0 代表了通用机器人基础模型的新范式，将大规模预训练 + 灵活微调的 paradigm 从语言领域成功引入机器人领域。

12. 里程碑对比总结

里程碑	年份	证明了什么	核心方法论
Shakey	1969	符号推理可驱动物理行动	STRIPS 规划
WABOT-1	1973	全尺寸人形机器人可行	工程集成
Stanford Cart	1979	视觉可支持自主导航	立体视觉
ASIMO	2000	人形动态行走	ZMP 控制
BigDog	2005	动物级动态运动	液压 + 反馈控制
DRC	2015	传统方法鲁棒性不足	遥操作 + 自主
Rubik's Cube	2019	Sim2Real + 灵巧操作	RL + 域随机化
RT-1	2022	数据规模定律	Transformer + 大数据
RT-2	2023	VLM→VLA 迁移	动作即 Token
Open X-Embodiment	2024	跨具身迁移	开放数据生态
pi0	2024	通用机器人基础模型	VLM + Flow Matching

13. 未来展望

根据当前趋势，下一个可能的里程碑：

真正通用的家庭机器人：能在开放家庭环境完成多种日常任务
自主学习的机器人：无需人类演示，通过探索和交互自主习得技能
多机器人协作：多个异构机器人协同完成复杂任务
长期自主运行：机器人在真实环境中连续运行数月而不需人工干预

参考资料

Nilsson, N. J. "Shakey the Robot." SRI International, 1984
Ahn et al., "Do As I Can, Not As I Say: Grounding Language in Robotic Affordances," 2022
Brohan et al., "RT-1" and "RT-2," 2022-2023
Open X-Embodiment Collaboration, 2024
Black et al., "pi0," 2024

相关笔记：

具身智能发展里程碑

概述

时间线总览

1. Shakey（1969）— 通用移动机器人的开端

背景

技术创新

历史意义

2. WABOT-1（1973）— 首个全尺寸人形机器人

背景

技术创新

历史意义

3. Stanford Cart（1979）— 视觉自主导航

背景

技术创新

历史意义

4. ASIMO（2000）— 仿人双足行走的突破

背景

技术创新

历史意义

5. BigDog（2005）— 动态四足运动

背景

技术创新

历史意义

6. DARPA Robotics Challenge（2015）— 灾难救援机器人

背景

技术创新

关键发现

历史意义

7. OpenAI Rubik's Cube（2019）— Sim-to-Real 与灵巧操作

背景

技术创新

历史意义

8. RT-1（2022）— 大规模机器人学习

背景

技术创新

历史意义

9. RT-2（2023）— VLM 到 VLA 的迁移

背景

技术创新

历史意义

10. Open X-Embodiment（2024）— 跨具身迁移

背景

技术创新

历史意义

11. pi0（2024）— 通用机器人基础模型

背景

技术创新

历史意义

12. 里程碑对比总结

13. 未来展望

参考资料

评论 #