具身智能综述
引言
具身智能(Embodied Intelligence / Embodied AI)是人工智能领域中一个独立且庞大的学科方向,研究如何让智能体通过身体在物理或虚拟环境中感知、理解、规划和行动。它横跨人工智能、机器人学、认知科学、控制论、计算机视觉和神经科学等多个学科,已经发展为一个拥有完整理论体系、技术栈和产业生态的独立研究领域。
在早期的研究框架中,具身智能常被简单地归类为"AI Agent的一个子集"。这种分类在学科发展早期有一定道理——彼时的具身智能研究规模有限,往往只是通用AI Agent框架下的一个应用场景。然而,随着基础模型、机器人硬件、仿真技术和大规模数据采集的爆发式发展,具身智能已经演变为一个拥有独特问题定义、独特方法论和独特评估体系的一级学科方向。将具身智能仅视为AI Agent的子集,就如同将计算机视觉视为信号处理的子集一样——虽有历史渊源,但已无法反映学科的实际规模和独立性。
更准确的理解是:具身智能与AI Agent是两个有交叉但各自独立的研究方向。它们共享一些基础概念(如规划、记忆、工具使用),但在核心问题、技术栈和评估方式上有本质区别:
| 维度 | AI Agent | 具身智能 |
|---|---|---|
| 核心载体 | 软件程序 | 拥有身体的实体(机器人/虚拟角色) |
| 交互空间 | 数字环境(API、网页、代码) | 物理/虚拟三维空间 |
| 核心挑战 | 推理、规划、工具编排 | 感知-行动闭环、连续控制、物理交互 |
| 时间尺度 | 离散的任务步骤 | 连续的实时控制(毫秒级) |
| 安全约束 | 软件级(可回滚) | 物理级(不可逆、有安全风险) |
| 数据模态 | 主要为文本、结构化数据 | 视觉、触觉、力矩、本体感觉等多模态 |
| 评估方式 | 任务完成率、准确率 | 成功率 + 物理指标(力、精度、速度) |
关于AI Agent(任务导向型软件智能体)的详细讨论,请参考本站的 AI智能体 板块。
什么是具身智能
具身智能的定义
具身智能是指一个智能体通过某种身体存在于环境之中,能够通过该身体进行感知与行动,并在与环境的动态耦合中产生认知与行为。
这一定义包含三个不可或缺的要素:
- 身体(Body):智能体必须拥有一个在空间中存在的实体,无论是物理的还是虚拟的
- 环境(Environment):身体必须处于一个受规则约束的环境中(物理世界或仿真世界)
- 耦合(Coupling):身体与环境之间必须存在双向因果关系——智能体通过身体影响环境,环境也约束和影响智能体
缺少任何一个要素,都不构成具身智能。ChatGPT缺少身体,不是具身智能;一个静止不动的摄像头有"身体"但缺乏行动能力和因果耦合,也不是具身智能;一个游戏中能感知、移动、交互的NPC,即使身体是虚拟的,也是具身智能。
身体的本质
身体的概念是具身智能区别于其他AI方向的根本所在。Varela在《The Embodied Mind》中提出了一个深刻的洞察:
身体不是一个输入设备,而是认知发生的"方式"。
这意味着身体不仅仅是传感器的外壳或执行器的载体,而是智能产生的必要条件。具体来说,一个"身体"应当具备以下核心特征:
- 身体必须存在于某个空间中(真实或虚拟的)
- 身体拥有大小、位置等空间属性
- 身体可以感知(Perception)——从环境中获取信息
- 身体可以行动(Action)——对环境施加影响
- 身体受到环境规则的约束(物理规律、能量消耗、碰撞、动力学)
- 身体可以影响环境,并被环境影响——即因果耦合(Causal Coupling)
基于这些特征,我们可以清晰地判断不同实体的性质:
| 实体 | 空间存在 | 感知 | 行动 | 因果耦合 | 是否具身 |
|---|---|---|---|---|---|
| ChatGPT | ✗ | ✗ | ✗ | ✗ | ✗ |
| Web Agent | ✗ | 有限 | 有限 | ✗ | ✗ |
| 游戏NPC | ✓ | ✓ | ✓ | ✓ | ✓ |
| 工业机械臂 | ✓ | ✓ | ✓ | ✓ | ✓ |
| 人形机器人 | ✓ | ✓ | ✓ | ✓ | ✓ |
| AR眼镜助手 | 边界 | ✓ | 有限 | 有限 | 边界案例 |
智能的具身本质
具身认知(Embodied Cognition)是具身智能的哲学基础,其核心主张源自Merleau-Ponty和Varela等人的工作:
智能不是在大脑内部孤立发生的计算过程,而是通过身体与世界的持续耦合而涌现的。
这一思想对人工智能有深远启示。传统AI(符号主义、纯统计学习)将智能视为输入-计算-输出的信息处理过程,身体只是可选的外设。但具身认知观点认为,身体的形态、能力和限制本身就塑造了智能的性质——一只手有五个手指这一"硬件事实",决定了人类操作物体的方式,进而影响了人类对工具的认知和发明。
这被称为"4E认知"框架:
- Embodied(具身的):认知依赖身体的物理结构
- Embedded(嵌入的):认知嵌入在特定的环境情境中
- Enacted(生成的):认知通过与环境的主动交互而产生
- Extended(延展的):认知可以延伸到身体之外的工具和环境中
4E认知的详细理论探讨,请参考 具身认知理论。
具身智能的历史脉络
具身智能的发展可以追溯到多个学科的交汇,经历了从哲学思辨到工程实践的演变:
哲学与认知科学根基(1940s-1990s)
- 控制论诞生(1948):Norbert Wiener提出控制论(Cybernetics),将反馈环路作为理解生物和机器行为的核心框架,奠定了感知-行动闭环的思想基础
- 感觉运动理论(1960s):Gibson提出生态心理学和可供性(Affordance)理论,认为感知不是被动接收,而是为行动服务的主动探索
- 具身认知哲学(1991):Varela等人出版《The Embodied Mind》,正式提出具身认知的理论框架,挑战了传统"大脑中心论"
行为主义机器人学(1986-2000s)
- Brooks的Subsumption架构(1986):MIT的Rodney Brooks提出不需要内部表征的行为主义机器人架构,主张"世界本身就是最好的模型",直接将感知映射到行动。这是具身智能在工程上的第一次实践
- 早期仿人机器人:Honda的ASIMO(2000)等早期人形机器人展示了物理具身的可能性,但依赖手工编程而非学习
深度学习驱动的转折(2013-2020)
- 深度强化学习突破:DQN(2013)、AlphaGo(2016)证明了端到端学习的强大能力
- 仿真平台成熟:MuJoCo、OpenAI Gym/Gymnasium、Isaac Gym等仿真环境使大规模机器人学习成为可能
- Sim2Real迁移:域随机化(Domain Randomization)等技术使仿真训练的策略能够迁移到真实世界
- 模仿学习复兴:DAgger、GAIL等算法让机器人从人类示范中高效学习
基础模型时代(2022-至今)
- 视觉-语言-动作模型(VLA):RT-1(2022)、RT-2(2023)将大语言模型和视觉模型的能力引入机器人控制
- 扩散策略(Diffusion Policy):将扩散模型应用于动作生成,在操作任务上取得突破性进展
- 通用机器人基础模型:Octo、OpenVLA、pi0等模型探索跨机器人、跨任务的通用策略
- 大规模数据集:Open X-Embodiment、DROID等项目推动机器人数据的规模化
- 人形机器人浪潮:Figure、Tesla Optimus、Unitree等公司推动人形机器人从实验室走向产业化
- 世界模型与视频生成:Sora等视频生成模型展示了作为世界模拟器的潜力,为具身智能的规划和想象能力提供新路径
更详细的里程碑事件,请参考 具身智能里程碑。
具身智能的核心支柱
具身智能作为一个完整的系统,可以分解为六大核心支柱。理解这六大支柱是理解整个学科的关键:
┌─────────────────────────────────────────────────────────┐
│ 具身智能系统 │
│ │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ 感 知 │ │ 世界模型 │ │ 规划决策 │ │
│ │Perception│ │World Model│ │ Planning │ │
│ └────┬─────┘ └────┬─────┘ └────┬─────┘ │
│ │ │ │ │
│ └─────────────┼─────────────┘ │
│ │ │
│ ┌──────────┐ ┌────┴─────┐ ┌──────────┐ │
│ │ 行动控制 │ │ 学 习 │ │ 记 忆 │ │
│ │ Action │ │ Learning │ │ Memory │ │
│ └──────────┘ └──────────┘ └──────────┘ │
│ │
│ ─────────── 身体 + 环境(物理/虚拟)─────────── │
└─────────────────────────────────────────────────────────┘
1. 感知(Perception)
感知是具身智能体与环境交互的第一步——将原始传感器数据转化为结构化的环境表示。与纯视觉AI不同,具身智能的感知必须服务于行动,必须是实时的、多模态的、三维的。
多模态感知的核心技术:
- 视觉感知:RGB相机、深度相机提供丰富的环境信息。当前主流的视觉编码器包括CLIP、DINOv2、SigLIP等视觉基础模型,以及SAM、Grounding DINO等目标检测与分割模型
- 3D空间感知:将2D图像还原为3D空间理解,包括NeRF、3D Gaussian Splatting、点云处理等技术。这对抓取、导航等任务至关重要
- 触觉感知:触觉传感器(如GelSight)提供接触力、形变、纹理等信息,在精细操作中不可或缺
- 本体感觉:关节角度、力矩、IMU等传感器提供机器人自身状态信息
- 视频理解:理解动态场景中的运动、因果关系和时序变化,是具身智能感知区别于静态图像理解的关键能力
- 多模态融合:如何将视觉、触觉、听觉、本体感受等多种模态统一编码,是当前研究的重要方向
当前趋势是视觉主导。视觉输入带宽最高、信息最丰富,这也是为什么许多自动驾驶公司能够顺利转型做人形机器人——它们在视觉处理上有深厚积累。
2. 世界模型(World Model)
世界模型是具身智能体创建环境内部表征的核心机制。它不是被动的记录,而是为推理、预测、规划和行动服务的主动的内部模拟器。
具身智能必须依赖世界模型来理解环境、规划行动、预测后果。
人类天生拥有丰富的世界模型:3个月大的婴儿就能初步理解物体恒常性,知道墙是不可穿过的;不久后就能预测物体会落地、推测他人的意图。具身智能体同样需要这种能力。
世界模型可以分为两大类:
物理世界模型(Physical World Model)
关注环境的结构与物理法则,包含四个核心要素:
- 对象(Objects):物体的属性——形状、大小、颜色、材质、质量
- 空间(Space):物体间的空间关系——位置、距离、邻接、包含
- 动态(Dynamics):环境的变化规律——运动、碰撞、流体、形变
- 因果(Causality):行动与结果的因果关系——推了杯子它会倒,按下开关灯会亮
物理世界模型使具身智能体能够:
- 推演(Roll forward):根据候选动作想象环境会如何变化
- 评估(Evaluate):给想象的未来打分
- 执行(Execute):选择最优方案并执行,然后根据新观察再次规划(即MPC,模型预测控制)
心理世界模型(Mental World Model)
关注人类的心理状态与社会互动。对于需要与人协作的具身智能体(如家庭服务机器人),这一层至关重要:
- 意图(Intentions):理解人类的目标和动机
- 情感(Emotions):察觉用户的情绪状态
- 信念(Beliefs):理解他人对世界的认知(可能与真实情况不同)
- 社会规范(Social norms):理解文化习俗、礼仪、人际关系
心理世界模型的核心能力是心智理论(Theory of Mind, ToM)——理解他人拥有独立的思想、信念和意图的能力。一个家庭服务机器人不仅要懂"杯子掉在地上会碎"(物理),还要懂"杯子碎了主人可能会难过,也可能是主人故意摔杯子发泄情绪"(心智)。没有这种理解,机器人只是冰冷的执行器。
世界模型的技术实现
当前世界模型的技术路线包括:
| 路线 | 核心思想 | 代表工作 |
|---|---|---|
| 学习的动力学模型 | 用神经网络学习状态转移函数 | RSSM、Dreamer系列 |
| 视频预测模型 | 生成未来帧作为想象 | Sora、UniSim |
| 物理仿真器 | 白盒物理引擎 | MuJoCo、Isaac Sim |
| 神经隐式表示 | 用连续函数表示场景 | NeRF、3DGS |
| JEPA框架 | 在抽象空间预测未来表征 | V-JEPA(Yann LeCun) |
| 基于LLM的常识推理 | 利用语言模型的世界知识 | SayCan、Inner Monologue |
3. 规划与决策(Planning & Decision Making)
规划是将高层目标分解为可执行动作序列的过程。具身智能体的规划面临独特的挑战:它必须在连续的物理空间中、在不确定性下、在实时约束下做出决策。
具身智能的规划通常分为多个层次,类似人类大脑的层次结构:
| 层次 | 类比 | 关注点 | 时间尺度 | 典型技术 |
|---|---|---|---|---|
| 任务规划 | 大脑皮层 | "做什么" — 任务分解、逻辑顺序 | 秒~分钟 | LLM/VLM、PDDL、HTN |
| 运动规划 | 小脑 | "怎么动" — 轨迹生成、避障 | 毫秒~秒 | RRT*、轨迹优化、MPC |
| 底层控制 | 脊髓/肌肉 | "力矩多大" — 关节驱动 | 毫秒 | PID、阻抗控制、逆动力学 |
高层规划(任务层)的核心挑战在于:现实世界的活动千变万化,仅"炒菜"一项就涉及切菜、调料、火候、食材状态、厨房空间利用等复杂组合。LLM的引入为任务规划带来了突破——利用语言模型的常识知识进行任务分解和高层推理(如SayCan、Code as Policies)。但如何将语言层面的抽象规划可靠地落地为物理层面的精确动作,仍是开放问题。
低层规划(运动层)的进步更为显著。传统机器人主要依赖本体感觉(关节角度等),但当前趋势是利用视觉输入。视觉驱动的运动规划使机器人能够处理更复杂、更不确定的环境。
任务与运动规划的统一(TAMP)是当前研究的重要方向——如何让高层的符号推理和底层的几何约束在同一个框架下协同工作。
详细的规划理论见 任务与运动规划理论。
4. 行动与控制(Action & Control)
行动是具身智能区别于所有其他AI方向的核心特征。具身智能体不仅要"想",还要"做"——将决策转化为物理世界中的实际运动。
操作(Manipulation)是当前具身智能研究的核心任务之一,涉及:
- 抓取(Grasping):从简单的平行夹爪抓取到灵巧手操作
- 放置与装配:精确的位姿对齐和力控制
- 工具使用:理解和使用人类工具
- 柔性物体操作:衣物折叠、绳索操作等非刚体任务
移动(Locomotion)是另一大核心任务:
- 双足行走:人形机器人的平衡与行走控制
- 四足运动:在复杂地形上的稳健运动
- 全身协调:同时移动和操作(loco-manipulation)
控制理论为行动提供数学基础:
- 经典控制:PID、阻抗控制、力位混合控制
- 最优控制:LQR、MPC
- 学习的控制策略:基于RL或模仿学习的端到端控制
- 全身控制(Whole-Body Control):人形机器人的多任务平衡与协调
机器人学基础(运动学、动力学、控制)详见 机器人学基础。
5. 学习(Learning)
学习能力是具身智能从"编程机器人"走向"智能机器人"的关键。主要的学习范式包括:
模仿学习(Imitation Learning):从人类示范中学习策略
- 行为克隆(Behavioral Cloning):直接模仿动作
- DAgger:交互式纠正
- ACT、Diffusion Policy:当前最先进的模仿学习方法
强化学习(Reinforcement Learning):通过试错和奖励信号学习
- 大规模并行仿真训练(如Isaac Gym中数千个机器人同时训练)
- 奖励工程:设计合适的奖励函数
- Sim2Real迁移:仿真训练策略的落地
基础模型驱动的学习:利用预训练大模型的知识
- VLA模型(Vision-Language-Action):将视觉、语言理解和动作生成统一在一个模型中
- 扩散策略(Diffusion Policy):用扩散模型生成动作序列
- 语言条件化学习:用自然语言指令驱动机器人行为
数据是核心瓶颈。与NLP和CV领域可以从互联网上获取海量数据不同,机器人数据的采集成本极高(需要真实的物理交互)。当前主要解决方案:
- 遥操作(Teleoperation):ALOHA、UMI等系统
- 大规模数据集:Open X-Embodiment、DROID、Bridge Data V2
- 仿真数据 + 域随机化
- 视频数据利用:从互联网视频中学习物理常识和操作技能
- 合成数据增强:利用视频生成模型扩充训练数据
详见 机器人学习 板块。
6. 记忆(Memory)
记忆能力是高级智能的基础。一个没有记忆的机器人只能响应当前瞬间的刺激,无法进行长程任务、无法从经验中改进、无法个性化服务。
具身智能体的记忆可以分为以下层次:
- 固定记忆(Fixed Memory):即神经网络权重。通过预训练获得,推理时不变。存储了通用的世界知识和技能。更新困难,需要微调,且面临灾难性遗忘
- 工作记忆(Working Memory):模型在推理过程中的激活状态(Activations)。在序列模型中,注意力机制的KV缓存充当工作记忆。容量受限于上下文窗口
- 外部记忆(External Memory):存储在模型架构之外的信息,通过检索机制访问。包括向量数据库(RAG)、知识图谱、经验回放缓冲区等
- 情景记忆(Episodic Memory):记录智能体的具体经历和交互片段。这是最接近人类"回忆"的记忆形式,对个性化和终身学习至关重要
情景记忆被认为是具身智能记忆系统的未来方向。它需要满足:
- 个性化(Personalization):针对特定用户和环境构建定制化记忆
- 终身学习(Lifelong Learning):记忆能够持续增长,但增长速度必须慢于交互的增长速度(即需要有效的压缩和遗忘机制)
- 可检索性:能够根据当前情境快速检索相关记忆
当前的Transformer架构在记忆方面存在根本局限——KV缓存的线性增长无法支撑终身交互。未来的方向不是单纯堆砌更大的上下文窗口,而是开发动态的、可压缩的内部表征,使智能体能够在漫长的生命周期中持续学习和进化。
具身智能的技术范式
范式一:从模块化到端到端
具身智能系统的架构经历了从纯模块化到端到端、再到混合架构的演变:
模块化架构:将系统拆分为感知、规划、控制等独立模块,各自独立开发。优点是可解释、可调试、安全约束易于加入;缺点是模块间的误差累积和信息瓶颈。
端到端架构:直接从原始观测映射到动作,由单一的神经网络完成所有处理。优点是避免信息损失、泛化能力强;缺点是可解释性差、数据需求大、安全性难以保证。
混合架构(当前主流):
- 高层:LLM/VLM进行任务理解和分解
- 中层:学习的策略或传统规划器生成轨迹
- 底层:经典控制器保证安全和精度
详细的架构对比见 具身智能技术路线图。
范式二:基础模型驱动的具身智能
大语言模型和视觉-语言模型的成功深刻改变了具身智能的研究范式。核心技术方向包括:
视觉-语言-动作模型(VLA):
VLA将视觉理解、语言理解和动作生成统一在一个模型中,是当前最受关注的技术路线。代表工作包括:
| 模型 | 机构 | 核心创新 |
|---|---|---|
| RT-1 | 首个大规模机器人Transformer | |
| RT-2 | VLM直接输出动作token | |
| Octo | UC Berkeley | 跨机器人通用策略 |
| OpenVLA | Stanford等 | 开源VLA |
| pi0 | Physical Intelligence | VLM + Flow Matching动作头 |
| RoboCasa | UT Austin | 大规模仿真数据训练 |
扩散策略(Diffusion Policy):
将扩散生成模型应用于动作序列的生成。扩散策略天然支持多模态动作分布(同一任务可能有多种合理的完成方式),在操作任务上取得了优异表现。
LLM作为高层规划器:
利用LLM的常识知识和推理能力进行任务分解和高层规划:
- SayCan:将LLM的知识与机器人的能力"接地"(grounding)
- Code as Policies:让LLM直接生成机器人控制代码
- Inner Monologue:LLM通过多轮反馈进行规划调整
详见 模型与算法 板块。
范式三:仿真到现实(Sim2Real)
由于真实世界数据采集成本高昂且存在安全风险,在仿真环境中训练并迁移到真实世界是具身智能的核心范式之一:
- 域随机化(Domain Randomization):在仿真中随机化物理参数、视觉外观等,使策略对仿真-现实的差距具有鲁棒性
- 域适应(Domain Adaptation):显式地缩小仿真和现实之间的分布差异
- 师生蒸馏(Teacher-Student Distillation):在仿真中用特权信息训练教师策略,再蒸馏到只用真实可获取信息的学生策略
- 仿真器的进步:NVIDIA Isaac Sim/Lab、MuJoCo、Habitat等仿真平台持续改进物理真实度
范式四:数据规模化
数据是当前具身智能发展的最大瓶颈之一。围绕数据的核心进展包括:
- 大规模机器人数据集:Open X-Embodiment(汇聚22个机器人平台的百万级episode)、DROID(分布式遥操作)
- 遥操作系统:ALOHA(低成本双臂遥操作)、UMI(通用操作接口)、GELLO等降低了数据采集门槛
- 互联网视频挖掘:从YouTube等平台的操作视频中提取技能知识
- 合成数据:利用视频生成模型合成训练数据
- 数据飞轮:部署-采集-训练-改进的闭环,使数据规模持续增长
详见 遥操作与数据收集。
具身智能体的分类
物理机器人(Robotic Agents)
物理机器人是具身智能最直接的载体,拥有确定性的物理身体。在中国AI产业的语境中,"具身智能"几乎等同于机器人。按形态分类:
| 形态 | 特点 | 典型场景 |
|---|---|---|
| 人形机器人 | 类人外形,通用性最强但控制最难 | 通用家庭/工业服务 |
| 机械臂 | 固定底座,高精度 | 工业制造、实验室 |
| 四足机器人 | 地形适应性强 | 巡检、救援、探索 |
| 灵巧手 | 精细操作能力 | 操作研究、服务 |
| 无人机 | 空中视角,快速部署 | 物流、测绘、巡检 |
| 移动操作平台 | 底盘+机械臂 | 仓储物流、家庭服务 |
人形机器人是当前产业界最大的热点。2024-2026年,Figure、Tesla Optimus、Unitree H1/G1、宇树、智元、傅利叶等公司/机构密集发布人形机器人产品,资本市场投入巨大。人形机器人的核心吸引力在于通用性——人类环境为人类身体设计,人形机器人天然适配。
虚拟具身智能体(Virtual Embodied Agents, VEA)
VEA是拥有虚拟身体、在虚拟环境中感知和行动的智能体。虽然没有物理实体,但它们在虚拟空间中具备完整的具身特征——空间存在、感知、行动和因果耦合。
按使用目的,VEA可以分为三类:
- 社交型智能体:元宇宙、虚拟助手、AI伴侣等场景中的虚拟人
- 游戏型智能体:开放世界游戏中能自主生存、维护社会生态的NPC
- 仿真训练智能体:作为物理机器人的数字孪生,用于Sim2Real训练前的策略验证
VEA在具身智能研究中有重要价值:它提供了一个成本低、安全、可大规模并行的实验环境,许多具身智能算法先在虚拟环境中验证,再迁移到物理世界。
详见本站 AI智能体 - 虚拟具身智能体 板块。
关于可穿戴智能体的边界讨论
可穿戴智能体(Wearable Agents),如AR眼镜、智能手套等,在增强人类能力方面潜力巨大。然而,根据我们对"身体"的严格定义,可穿戴智能体更接近一种智能辅助设备,而非拥有独立身体的具身智能体。它们增强的是人类的身体,而非拥有自己的身体。将其视为"准具身智能"(Quasi-Embodied AI)可能更为恰当。
具身智能的核心挑战
尽管近年来取得了令人瞩目的进展,具身智能仍面临一系列深层次的挑战:
1. 数据瓶颈
机器人数据的采集成本远高于文本和图像数据。一段NLP训练数据只需从网上爬取,但一段机器人操作数据需要真实的物理交互——设备、场景、人力、时间缺一不可。即使是最大的机器人数据集(如Open X-Embodiment),其规模与ImageNet或Common Crawl相比也微不足道。
2. 泛化能力不足
当前的具身智能系统在面对训练分布外的场景时表现急剧下降。换一个杯子、换一张桌子、换一个光照条件,就可能导致失败。从"能在实验室里抓100个物体"到"能在任意厨房里做任意菜",中间有巨大的鸿沟。
3. 长程任务规划
机器人的"小脑"(低层运动控制)进步显著,但"大脑"(高层任务规划)进展缓慢。如何将"打扫房间"这样的高层、模糊的指令可靠地分解为数百个精确的物理动作,目前仍无成熟方案。LLM提供了新的可能性,但可靠性和可预测性远不能满足实际需求。
4. 安全性与鲁棒性
具身智能体在物理世界中行动,错误不可回滚。一个软件bug最多导致程序崩溃,但一个机器人控制bug可能造成物理伤害。如何在保证探索和学习能力的同时确保安全,是工程化部署的核心难题。
5. 硬件限制
尽管硬件在快速进步,当前的机器人在灵活性、力量、能耗、成本等方面仍远不及生物体。人手有20多个自由度和极其精细的力控制能力,目前没有任何机械手能接近这一水平。
6. 评估标准缺失
与NLP(有MMLU、HELM等benchmark)和CV(有ImageNet、COCO等)不同,具身智能缺乏被广泛接受的统一评估体系。不同的实验室使用不同的机器人、不同的任务、不同的评估指标,研究结果难以横向比较。
7. 实时性要求
具身智能体需要在毫秒级时间尺度内完成从感知到行动的完整闭环。这对模型的推理速度提出了极高要求,与当前大模型"越大越好"的趋势形成张力。如何在模型能力和推理速度之间取得平衡,是工程实践中的核心问题。
8. 从实验室到真实世界
实验室中的精心控制条件与真实世界的混乱环境之间存在巨大鸿沟。光照变化、遮挡、干扰物、用户的不可预测行为、设备磨损……这些因素的组合爆炸使得实机部署极为困难。
与相关学科的关系
与AI Agent的关系
具身智能与AI Agent共享一些基础概念:规划、记忆、工具使用、环境交互。在高层架构上,两者都可以抽象为"感知-推理-行动"的循环。AI Agent中关于认知架构、多智能体协作、推理策略等方面的研究,对具身智能同样有启发。
但核心差异在于:AI Agent的"行动"是调用API、操作软件;具身智能的"行动"是在物理空间中移动和操作物体。 这一差异带来了根本不同的技术挑战——连续控制、实时性、安全性、多模态感知、物理约束等。
两个方向之间存在交叉地带——虚拟具身智能体(VEA)既有AI Agent的软件特性,又有具身智能的空间交互特性。
与传统机器人学的关系
传统机器人学关注运动学、动力学、控制理论、运动规划等"硬件+控制"层面的问题。具身智能继承了这些基础,但在上层增加了"智能"层面——学习、推理、泛化、与人协作。可以说,具身智能 = 机器人学 + AI,是传统机器人学与现代AI方法的深度融合。
与认知科学的关系
具身智能的理论基础深受认知科学影响。4E认知框架、直觉物理、心智理论等概念直接来自认知科学研究。反过来,具身智能也为认知科学提供了计算实验平台——通过构建和测试具身智能模型,验证关于人类认知的假说。
与计算机视觉的关系
3D视觉、场景理解、目标检测、姿态估计等CV技术是具身感知的核心。但具身视觉有其独特需求:必须服务于行动(不是为了"看"而是为了"做")、必须实时、必须处理交互中的遮挡和视角变化。
与自动驾驶的关系
自动驾驶可以视为具身智能的一个特化实例——汽车是"身体",道路是"环境",驾驶是"任务"。两个领域共享感知、规划、控制的技术栈,但在操作复杂度(驾驶 vs 灵巧操作)和环境结构化程度上有显著差异。许多自动驾驶公司(如Tesla)正在向通用具身智能(人形机器人)转型,技术经验的迁移是重要推动力。
本站笔记导航
本站的具身智能板块按以下结构组织,每个子板块都有独立的详细笔记:
| 板块 | 内容概要 | 适合人群 |
|---|---|---|
| 总论 | 综述、路线图、里程碑、关键会议 | 所有人 |
| 理论研究 | 具身认知、感知-行动循环、世界模型理论、论文精读 | 研究者 |
| 机器人学基础 | 运动学、动力学、运动规划、控制、SLAM | 基础学习者 |
| 机器人学习 | 模仿学习、RL、Sim2Real、扩散策略、数据采集 | 算法研究者/工程师 |
| 模型与算法 | VLA、世界模型、基础模型、开源模型 | 算法研究者 |
| 仿真与软件开发 | 仿真平台、仿真资产、世界构建、ROS2、NVIDIA生态、开发框架 | 工程师 |
| 硬件 | 传感器、执行器、计算平台、开源硬件 | 硬件工程师 |
| 机器人形态 | 人形、四足、灵巧手、无人机 | 所有人 |
| 实机部署 | Sim2Real部署、安全、标定、实时系统 | 工程师 |
| 产业生态 | 公司全景、行业研究、市场、产学研 | 行业关注者 |
此外,本站还有与具身智能密切相关的板块:
参考文献
- Varela, F. J., Thompson, E., & Rosch, E. (1991). The Embodied Mind: Cognitive Science and Human Experience. MIT Press.
- Brooks, R. A. (1986). A Robust Layered Control System for a Mobile Robot. IEEE Journal on Robotics and Automation.
- Gibson, J. J. (1979). The Ecological Approach to Visual Perception. Houghton Mifflin.
- Merleau-Ponty, M. (1945). Phénoménologie de la perception. Gallimard.
- Meta AI Research. (2025). Embodied AI Agents: Modeling the World.
- Brohan, A. et al. (2022). RT-1: Robotics Transformer for Real-World Control at Scale.
- Brohan, A. et al. (2023). RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control.
- Chi, C. et al. (2023). Diffusion Policy: Visuomotor Policy Learning via Action Diffusion.
- Black, K. et al. (2024). pi0: A Vision-Language-Action Flow Model for General Robot Control.
- Open X-Embodiment Collaboration. (2024). Open X-Embodiment: Robotic Learning Datasets and RT-X Models.
- Ahn, M. et al. (2022). Do As I Can, Not As I Say: Grounding Language in Robotic Affordances (SayCan).
- LeCun, Y. (2022). A Path Towards Autonomous Machine Intelligence (JEPA framework).
- Sclar, M. et al. (2024). ExploreToM: A Benchmark for Theory of Mind Reasoning.