跳转至

具身智能发展里程碑

概述

具身智能的发展历程跨越了半个多世纪,从早期的符号主义机器人到如今的基础模型驱动的通用机器人。本文按时间线梳理关键里程碑事件,分析每个突破的技术创新及其对领域的深远影响。


时间线总览

timeline
    title 具身智能发展历程
    section 萌芽期 (1960s-1990s)
        1969 : Shakey - 首个通用移动机器人
        1973 : WABOT-1 - 首个全尺寸人形机器人
        1979 : Stanford Cart - 视觉导航先驱
    section 发展期 (2000s-2010s)
        2000 : ASIMO - 仿人双足行走
        2005 : BigDog - 动态四足平衡
        2015 : DRC - 灾难救援机器人竞赛
    section 爆发期 (2019-至今)
        2019 : OpenAI 魔方 - 灵巧操作+Sim2Real
        2022 : RT-1 - 大规模机器人学习
        2023 : RT-2 - VLM到VLA迁移
        2024 : Open X-Embodiment + pi0

1. Shakey(1969)— 通用移动机器人的开端

背景

由 SRI International 研发,Shakey 是世界上第一个能够推理自身行为的通用移动机器人。

技术创新

  • STRIPS 规划器:首个自动规划系统,定义了 precondition-effect 形式化框架
  • 感知-推理-行动循环:将 AI 规划与物理世界执行结合
  • 视觉导航:使用电视摄像头和碰撞传感器进行环境感知

历史意义

Shakey 证明了符号推理可以驱动物理世界中的行动。STRIPS 的规划形式化至今仍是 PDDL 的理论基础。


2. WABOT-1(1973)— 首个全尺寸人形机器人

背景

由日本早稻田大学研发,WABOT-1 是世界上第一个全尺寸仿人机器人。

技术创新

  • 双足步行系统:虽然速度极慢,但实现了静态平衡行走
  • 视觉系统:使用两个外部摄像头进行物体识别和距离测量
  • 手部抓取:触觉传感器驱动的简单抓取
  • 语言交互:能用日语进行简单对话

历史意义

WABOT-1 开创了人形机器人研究范式,证明了构建全尺寸仿人系统的可行性,为后续 ASIMO 等研究奠定基础。


3. Stanford Cart(1979)— 视觉自主导航

背景

由 Hans Moravec 在斯坦福大学开发,Stanford Cart 是早期视觉导航的代表性工作。

技术创新

  • 立体视觉:通过单个摄像头在不同位置拍摄获取深度信息
  • 障碍物检测:基于视觉的障碍物避让
  • 路径规划:在障碍物环境中自主规划路径

历史意义

虽然移动速度极慢(穿越 20 米房间需要约 5 小时),Stanford Cart 证明了纯视觉信息可以支持自主导航,这一思想在 40 年后的 Tesla FSD 和具身导航中重新绽放。


4. ASIMO(2000)— 仿人双足行走的突破

背景

Honda 历经 14 年研发推出的人形机器人 ASIMO(Advanced Step in Innovative Mobility)。

技术创新

  • 动态步行:基于 ZMP(Zero Moment Point)的动态平衡行走 $\(\text{ZMP}: \quad x_{zmp} = \frac{\sum_i m_i(\ddot{z}_i + g)x_i - \sum_i m_i \ddot{x}_i z_i}{\sum_i m_i(\ddot{z}_i + g)}\)$
  • 楼梯攀登:能上下楼梯
  • 手势识别:识别简单手势指令
  • 自主避障:实时路径调整

历史意义

ASIMO 证明了人形机器人可以在人类环境中进行动态、稳定的移动。ZMP 方法成为此后十余年人形运动控制的主流范式。


5. BigDog(2005)— 动态四足运动

背景

Boston Dynamics 为美国军方开发的四足机器人。

技术创新

  • 动态平衡:液压驱动,能在崎岖地形保持平衡
  • 扰动恢复:被踢后能恢复平衡(标志性演示视频)
  • 地形自适应:适应冰面、斜坡、碎石等多种地形
  • 负载能力:可携带约 150kg 载荷

历史意义

BigDog 展示了机器人可以实现接近动物水平的动态运动能力,开创了现代动态腿式运动的研究方向,后续演化为 Spot、Atlas 等明星产品。


6. DARPA Robotics Challenge(2015)— 灾难救援机器人

背景

DARPA 为福岛核事故善后而发起的机器人竞赛,要求机器人在灾难环境中完成驾驶、开门、过废墟、关阀门等任务。

技术创新

  • 全身运动规划:复杂非结构化环境中的运动
  • 人机协作遥操作:远程操控与自主决策结合
  • 多模态感知融合:LiDAR + 视觉 + 力觉
  • 多任务通用平台:同一平台完成多种异构任务

关键发现

大多数机器人在简单任务(如开门)上频繁失败,暴露了当时机器人系统的鲁棒性严重不足——这直接推动了后续学习方法的引入。

历史意义

DRC 证明了传统工程方法在非结构化环境中的局限性,成为机器人学从纯工程转向学习驱动的重要转折点。


7. OpenAI Rubik's Cube(2019)— Sim-to-Real 与灵巧操作

背景

OpenAI 使用强化学习训练灵巧手(Shadow Hand)在真实世界中还原魔方。

技术创新

  • 大规模域随机化(Domain Randomization):在仿真中随机化 \(>100\) 个物理参数 $\(\pi^* = \arg\max_\pi \mathbb{E}_{\xi \sim P(\xi)} \left[ \sum_t r(s_t, a_t) \right]\)$ 其中 \(\xi\) 为随机化参数向量
  • 自动域随机化(ADR):自动调节随机化范围
  • 记忆增强策略:LSTM 策略网络处理部分可观测
  • 指尖操作:24 个自由度的精细控制

历史意义

这一工作证明了 Sim-to-Real 迁移可以解决极其精细的操作任务,域随机化成为此后机器人 RL 的标准技术。同时暴露了问题:训练所需的计算资源极其庞大。


8. RT-1(2022)— 大规模机器人学习

背景

Google DeepMind 发布的 Robotics Transformer,使用 130k 真实演示训练。

技术创新

  • Tokenized Actions:将连续动作离散化为 token
  • FiLM-conditioned EfficientNet:视觉编码器通过 FiLM 层融合语言指令 $\(\text{FiLM}(x) = \gamma(l) \odot x + \beta(l)\)$
  • 大规模真实数据:13 台机器人、17 个月、130k+ 轨迹
  • 多任务学习:单一模型处理 700+ 任务

历史意义

RT-1 证明了扩大数据规模和模型容量对机器人策略的有效性,开创了"机器人学习的 Scaling Law"研究方向。


9. RT-2(2023)— VLM 到 VLA 的迁移

背景

Google DeepMind 将视觉语言模型(VLM)直接微调为视觉语言动作模型(VLA)。

技术创新

  • 动作作为文本 Token:将机器人动作编码为自然语言 token 序列
  • VLM 知识迁移:互联网预训练的视觉-语言知识直接迁移到机器人控制
  • 涌现的推理能力:能理解从未见过的语义指令(如"把垃圾扔到垃圾桶")
  • 符号推理 + 物理操作:将符号推理和物理控制统一在单一模型中

历史意义

RT-2 证明了 VLM 中的互联网知识可以 grounding 到物理世界,VLA 范式由此确立,成为后续 Octo、pi0 等模型的基础框架。


10. Open X-Embodiment(2024)— 跨具身迁移

背景

由 33 个研究机构联合发布,包含 22 种机器人、100 万+ 真实轨迹的数据集及 RT-X 模型。

技术创新

  • 统一数据格式:RLDS(Reinforcement Learning Datasets)标准
  • 跨机器人迁移:在多种不同形态的机器人间共享训练数据
  • 正迁移验证:实验证明跨具身数据能提升单个机器人的性能
  • 开放生态:开源数据集和模型

历史意义

Open X-Embodiment 开创了具身智能的开放数据生态,证明了跨具身迁移学习的可行性,类比 NLP 中 Common Crawl 对语言模型的意义。


11. pi0(2024)— 通用机器人基础模型

背景

Physical Intelligence 公司推出的通用机器人策略模型。

技术创新

  • VLM 骨干网络:基于预训练 VLM 作为感知和推理基础
  • Flow Matching 动作头: $\(v_\theta(x_t, t) = \frac{dx_t}{dt}, \quad x_1 = x_0 + \int_0^1 v_\theta(x_t, t) dt\)$ 使用流匹配替代扩散模型生成动作
  • 多任务泛化:单一模型执行叠衣服、整理桌面、装箱等多种任务
  • 零样本迁移:在未见过的场景和物体上工作

历史意义

pi0 代表了通用机器人基础模型的新范式,将大规模预训练 + 灵活微调的 paradigm 从语言领域成功引入机器人领域。


12. 里程碑对比总结

里程碑 年份 证明了什么 核心方法论
Shakey 1969 符号推理可驱动物理行动 STRIPS 规划
WABOT-1 1973 全尺寸人形机器人可行 工程集成
Stanford Cart 1979 视觉可支持自主导航 立体视觉
ASIMO 2000 人形动态行走 ZMP 控制
BigDog 2005 动物级动态运动 液压 + 反馈控制
DRC 2015 传统方法鲁棒性不足 遥操作 + 自主
Rubik's Cube 2019 Sim2Real + 灵巧操作 RL + 域随机化
RT-1 2022 数据规模定律 Transformer + 大数据
RT-2 2023 VLM→VLA 迁移 动作即 Token
Open X-Embodiment 2024 跨具身迁移 开放数据生态
pi0 2024 通用机器人基础模型 VLM + Flow Matching

13. 未来展望

根据当前趋势,下一个可能的里程碑:

  1. 真正通用的家庭机器人:能在开放家庭环境完成多种日常任务
  2. 自主学习的机器人:无需人类演示,通过探索和交互自主习得技能
  3. 多机器人协作:多个异构机器人协同完成复杂任务
  4. 长期自主运行:机器人在真实环境中连续运行数月而不需人工干预

参考资料

  • Nilsson, N. J. "Shakey the Robot." SRI International, 1984
  • Ahn et al., "Do As I Can, Not As I Say: Grounding Language in Robotic Affordances," 2022
  • Brohan et al., "RT-1" and "RT-2," 2022-2023
  • Open X-Embodiment Collaboration, 2024
  • Black et al., "pi0," 2024

相关笔记


评论 #