具身智能简介
本笔记主要参考:
- Embodied AI Agents: Modeling the World (Meta AI Research, 2025)
Embodied AI(具身智能)是AI Agent的一个子集,一般可以这么认为:
AI Agents(最大集合)
│
├── Disembodied Agents(不具身)
│ ├── ChatGPT
│ ├── Web agents
│ └── Planning agents without action
│
└── Embodied AI Agents(具身智能,子集)
├── Robotic Agents
├── Virtual embodied agents(游戏、模拟)
└── Wearable embodied agents(眼镜、AR)
关于AI Agents的开发相关笔记,可以直接参考我的AI Agent笔记。
具身智能定义
身体
首先我们来大致明确这么一个事情:具身智能到底是什么。“具身”已经指明,具身智能必须要有一个“身体”:这个身体可以是虚拟的,也可以是实体的。
具身智能的核心判断标准是:它是否拥有一个能够与世界发生因果交互的身体。
在线聊天工具不是具身智能,因为它缺乏一个身体。这里有很多模糊的界限,AI Agent算不算有一个身体?机器人算不算有一个身体?如何才能算是有一个身体?我们需要明确对身体的界定。
Varela在《The Embodied Mind》中提到:
身体不是一个输入设备,而是认知发生的“方式”。
所以我们可以看到:
- Chatbot没有身体
- AI Agent没有身体
- NPC有身体
- 机器人有身体
可见,我们对身体的定义,来源于空间中的一个实体,该实体存在于一个客观的环境中。身体不仅仅是传感器的外壳,更是以“存在”的形式存续于世界之中。
我们可以做一个简单的特征抽取,一个身体应当具备以下核心特征:
- 身体必须存在于某个空间中(真实或虚拟的)
- 身体拥有大小、位置等客观属性和空间属性
- 身体可以感知(Perception)
- 身体可以行动(Action)
- 身体受到环境规则的约束(物理规律、能量消耗、动力学)
- 身体可以影响环境,并被环境影响(因果耦合)
智能
了解身体的概念后,我们可以得到具身智能的一般定义:
具身智能是指一个智能体通过某种身体存在于环境之中,能够通过该身体进行感知与行动,并在环境的动态耦合中产生认知。
我们可以看下图:

图中很好地展示了具身智能体的一些重要特征。(图片来源于Meta的具身智能综述文章《Embodied AI Agents: Modeling the World》,后文中的一些图片也来源于此)
上图中占了最大面积的一块是World Model,尚不清楚作者是刻意为之还是为了对偶才这么画的,但是世界模型对于具身智能来说是必不可少的:
具身智能必须依赖世界模型来理解环境、规划、行动。
具身认知(Varela、Merleau-Ponty)认为:
智能不是在大脑内部孤立发生,而是通过身体与世界的耦合发生。
但是要让耦合变得“智能”,身体必须能:
- 预测感知输入(我看到什么?)
- 预测行动后果(如果我移动,会发生什么?)
- 理解场景结构(物体空间关系)
- 理解他人的心理状态(社会世界模型)
这些正是世界模型的核心功能。
很显然,世界模型的概念来自于我们人类本身。现在你可以反思一下,你是怎么做出下列行动的:
- 预测物体会落地
- 走路不撞墙
- 推测别人会怎么想
- 计划明天去哪里
- 理解地图、空间、距离
人类天生拥有丰富的、结构化的、可预测的世界表示。在人类刚出生不久后,仅仅3个月大的婴儿就能初步理解这个世界,天生地明白什么是可以传过去的墙体、什么不是;天生地知道因果,能够理解世界的状态。
不久后,婴儿便能够理解他人的意图,很多婴儿为了吸引父母注意或者为了吃自己想吃的东西而大哭大闹,正是其心理世界模型的反映。
我们可以把人类的世界模型抽象为下面几个方面:
- 物理的:重力、墙不可穿
- 状态的:我在做什么、周围有什么、我在哪里
- 因果的:按下开关灯就能开
- 心理的:感受他人情绪,猜测他人意图,拥有自身的信念
- 时间的:人类能预测未来是否会下雨
当下神经科学普遍认为:
世界模型是大脑中由多模态神经表征形成的“预测模型(predictive model)”。
也就是说,大脑不断预测接下来会发生什么,并用感觉误差更新世界模型。AI中的世界模型延续了这一核心思路:
- Representation:将高维感知转化为低维结构化状态
- Dynamics Model: 预测未来
- Reward & Value: 预测奖励
- Imagination & Simulation: 规划想象
- Updating: 通过误差更新
具身智能种类
按照当下的发展,我们可以大致地将具身智能分为两大种类:
- Virtual Embodied Agents (VEA)
- Robotic Agents
VEA可以简单理解为拥有智能的NPC,在元宇宙、混合现实、游戏等场景中具备巨大的应用潜力。VEA还在AI治疗、AI演播室化身、社交AI等场景中有应用。
Meta的研究人员主要研究虚拟人,但VEA应当有更广泛的定义。我对拥有虚拟实体(Virtual Body)的VEA更感兴趣。从使用目的来说,当下VEA显然有三种不同的类别:
- 社交性智能体,也就是Meta研究人员主要研究的方向
- 游戏型智能体,在开放世界中生存、维护社会生态
- 任务型Simulation Agent:通常作为物理机器人的训练前身,用来Sim2Real迁移。
Robotic Agents就不用多说了。在中国AI界的语境下,“具身智能”几乎就等同于机器人,这可能和中国强大的硬件开发环境有关。机器人具备确定性的物理身体,属于具身智能是没有任何疑问的。
在Meta的具身智能综述中还提到了Wearable Agents(可穿戴智能体)在增强人类能力方面潜力巨大,并认为可穿戴智能体也是一种具身智能。然而,根据我们刚才讨论的关于具身智能的定义,我认为将可穿戴智能体视为具身智能是不妥的。可穿戴智能体最多可以算作一种“Quasi-Embodied AI”,他是一种智能辅助设备,尚不能视为一种具备独立身体的具身智能体。
世界模型
世界模型 (World Modeling): 是具身智能体(如机器人、虚拟人)创建环境内部表征的过程。它不仅仅是被动记录,而是为了推理、决策和更安全、高效的行动。
具身智能体需要同时理解“物理世界”和“人类内心世界”:
- 物理侧 (The "Physics" Engine): 就像自动驾驶汽车需要知道“如果我加速,根据摩擦力和动量,2秒后我会撞上墙”一样,机器人需要懂物理定律。这是为了 生存和操作 。
- 心智侧 (The "Theory of Mind"): 这一点通常被忽视。具身智能体(如家庭服务机器人)是与人共存的。它不仅要懂“杯子掉在地上会碎”(物理),还要懂“杯子碎了主人会生气,或者是主人故意摔杯子发泄”(心智)。这被称为 心智理论(Theory of Mind) ,即理解他人有独立的思想、意图和情绪。没有这个,机器人只是冰冷的机器,无法进行真正的服务。
物理世界模型 (Physical World Model)
- 关注点: 环境的结构与物理法则
- 核心要素:
- 对象: 捕捉物体的属性,例如形状、大小、颜色等。
- 空间: 理解物体间的空间关系,例如邻近度、距离、位置。
- 动态: 掌握环境的动态变化,例如物体的移动、随时间的改变。
- 因果: 理解基于物理定律的因果关系,即动作会产生什么后果。
心智世界模型 (Mental World Model)
- 关注点: 人类的情境与社会互动
- 核心要素:
- 意图: 理解人类的目标、意图,包括动机、偏好和价值观。
- 情感: 察觉用户的情绪和情感状态,并理解情绪如何影响行为。
- 社会: 捕捉社会动态,包括人际关系、文化规范、习俗和期望。
- 沟通: 理解言语和非言语交流,包括语言、语调、肢体语言和面部表情。
具身 AI 智能体需要世界建模来实现:
- 推理和规划: 世界模型允许具身 AI 智能体对环境进行推理并做出明智的决策。通过理解对象之间的关系及其行动的后果,智能体可以更有效地规划和执行任务。
- Zero-shot任务完成: 世界模型使具身 AI 智能体能够适应不断变化的环境并处理新任务。通过学习世界的表征,而不是死记硬背文本标记(tokens)和图像像素,智能体可以应对新情况和意外事件。
- Human-in-the-loop的主动学习: 世界模型为持续和主动的学习与改进奠定了基础。通过在现实世界中与人类用户互动,具身 AI 智能体可以随着时间的推移不断修正其对世界的理解并提高其性能。
- 高效探索: 世界模型帮助具身 AI 智能体高效地探索其环境。通过关注感兴趣的区域并避免不必要的动作,智能体可以更快地收集信息并进行学习。
世界模型使具身 AI 智能体能够根据对环境的多模态感知、用户画像和偏好、先前的行动和历史记录来进行推理和规划。
多模态感知
具身智能体通过感知来决定每一步的行动,这需要融合图像、视频、音频、语音和语言的理解能力。
目前非常流行的多模态感知技术包括:
- End-to-End MLLMs: 全能多模态大模型,代表是御三家(OpenAI, Google, Anthropic)
- Vision Encoders: 视觉基座层,用语将像素高效Embedding
- Video Understanding: 视频理解,理解动作的连续性和因果关系
- Spatial Perception: 3D与空间感知,将2D图像还原为3D空间
物理世界模型
具身智能体想要在物理世界中进行 规划(Planning) ,就必须理解物理世界。物理世界模型就是为了解决这个问题而诞生的。

利用世界模型,具身智能体(后文简称为EAI)应当具备以下能力:
- 推演(Roll forward): 利用世界模型,根据候选动作想象环境会如何变化。
- 评估(Evaluate): 使用成本模块(Cost Module)给想象的未来打分。
- 执行(Execute): 选择成本最低的方案,执行第一步,然后根据新的观察再次规划(即 MPC,模型预测控制)。
针对这些目标,在设计世界模型的时候,一般会考虑低层和高层两个维度:
- 低层(Low-level): 毫秒级的关节力矩变化。
- 高层(High-level): 秒级或分钟级的任务,如“放入电池”。
低层运动规划关注的是具体的肢体控制,类似于人类的小脑,运行频率高。
高层运动规划关注的是做什么、任务的逻辑顺序等,类似于人类的大脑,运行频率低一些,但是必须能够推演、规划。
| 层次 | 对应生物部位 | 关注点 | 技术 |
|---|---|---|---|
| 高层规划 | 大脑 (意识) | 意图与逻辑(做饭) | LLM, VLM, 抽象状态规划 |
| 低层规划 | 小脑 (潜意识) | 物理与协调(手怎么稳稳地拿锅) | JEPA, Visual World Models, MPC |
| 底层控制 | 脊髓/肌肉 | 力矩与驱动(二头肌收缩) | 关节力矩控制器, 逆动力学 |
在low level motion planning中,传统的机器人主要依赖本体感觉(如关节角度等),但现在的趋势是利用视觉输入。视觉输入带宽最高,包含信息最丰富。这也是为什么电池动力汽车企业现在都开始做人形机器人(具身智能体)的一个重要原因,他们都在自动驾驶中积攒了大量的视觉处理经验,而视觉处理在机器人中是非常重要的。
而high level motion planning的挑战就更多了。从目标来看,长时程和抽象化让规划不再需要考虑细节,而是专注于状态的跳变(比如抽屉已经打开、电池已经装好等),从而极大地缩小了搜索空间、提高了跨任务的泛化能力。
然而 ,现实生活中的活动千变万化,就一个炒菜,就能衍生出切菜、调料、火候、菜的状态、厨房利用等复杂的组合,导致模拟器中无法完全枚举。同时,清理桌面这样的任务太过于宽泛,具体如何转变为动力学模拟也是一个问题。
我们缺乏一个客观指标来衡量任务规划的好坏。因此,虽然当下机器人的灵活性相较于过去大大提升,但是其进步大多来自于小脑能力的提升,大脑侧的进展依旧十分缓慢甚至缺乏方向,人们对于如何构建机器人的大脑依然争论不断。Robot Learning需要海量的数据,对于机器人来说获取成本太高;不需要海量数据的AGI模型到现在连框架都还没想出来。可见实物机器人具身智能的发展还有很长的路要走。
心理世界模型
心理世界模型(Mental World Model)就是在心智层面上建立一个世界的表征,包括物体、事件、关系等。
心理世界模型在推理中至关重要,也是人类能够模拟场景、预测结果、因果推理的核心所在,是决策能力的核心。我们认为,为了让智能体能够更好地帮助和与人类协作,他们有必要学习人类的心理状态——人类通过体验、监督学习、及其他未查明的方式来对世界进行心理建模。

上图所示的VLWM 是一种 JEPA 风格的世界模型,它预测未来世界状态的抽象表征,而不是生成嘈杂且体量巨大的原始观测数据。
与物理世界模型不同,物理世界模型是 AI agent 为了理解、预测和推理外部世界而构建的内部表征,而 心理世界模型(mental world model)是 AI 对人类用户或其他 AI 的心理状态的表征 ,这是心智理论(Theory of Mind, ToM)推理的基础。心理世界模型对人机交互任务(如辅助、教学)以及多智能体协作尤为重要。
一个心理世界模型通常包含以下关键组件:
- 信念(Beliefs) :反映人类对世界的知识或看法
- 目标(Goals) :反映用户期望的结果或目标
- 意图(Intentions) :反映人类或智能体为实现目标的计划或行动
- 情绪(Emotions) :反映用户的情绪状态,这会影响其行为和决策
融合这些组件后,心理世界模型可以应用于多种场景,例如:
- 预测目标与意图 :通过预测用户的目标与意图,智能体可以主动提供帮助或指导,使用户更高效地达成目标。
- 推断信念差异 :例如在对话中,一人错误地认为某物体在某处,而另一人知道真实位置。心理世界模型能推断这种信念差异,并预测持有错误信念者的行为。
- 预测情绪反应 :心理世界模型可以预测用户对特定信息或行动的情绪反应,使智能体能调整策略,更好地支持用户需求。
具备心理世界模型的 AI agent 有多项优势:
- 促进人机协作 :能表示并推理用户的信念、目标、价值与偏好,从而实现更高效、有效的协作。
- 增强对用户心理状态的理解 :使交互更加有效且富有同理心。
- 实现主动与策略性规划 :智能体能更合理地规划对话行为,引导用户实现其目标,提高任务效率。

上图展示的是ExploreToM(Sclar et al., 2024),其表达了一个智能体如何在一个故事中跟踪多层嵌套的心智(beliefs about beliefs)。这种技术被称为心智理论(Theory of Mind, ToM)推理。
故事从 Anne 和 Beth 进入厨房 开始,然后发生以下事件(故事分支由程序生成):
1、Beth 毒了苹果并用巧克力覆盖 (绿色框)
- 更新 Beth 对世界的知识。
2、Beth 给苹果加盐并离开厨房 (粉色框)
- 更新 Anne 是否知道苹果被加盐(可能不知道,因为她没有看到)。
3、Beth 发短信告诉 Charles 苹果被加盐了;Charles 进入厨房 (橙色框)
- 更新 Charles 的信念,但 Anne 可能不知道 Charles 已经知道。
4、Charles 移动苹果到冰箱 (粉色框 <selected end>)
- 这一步改变了物理世界状态和每个人对位置的不同信念。
图中右侧的黑白虚线框则展示了信念更新,例如:
update #1
- worldState[Beth, location] -> kitchen
- belief[Anne, Beth, location] -> kitchen
表示:
✔ Beth 在厨房
✔ Anne 也认为 Beth 在厨房
程序在每个事件后都会更新多层嵌套的信念,如:
- Anne 的信念
- Beth 的信念
- Anne 对 Beth 的信念
- Beth 对 Anne 的信念
- Anne 是否知道 Charles 是否知道苹果被加盐?
这就是“嵌套心智”(nested beliefs)。
通过自动生成各种故事情境,系统可以“故意为难”模型,让它去处理越来越复杂的信念推理问题。这样一来,心智理论就不再只是被动地回答问题,而是一种需要模型主动发问、主动确认别人怎么想的能力。这强调了: 模型必须有一个能够随着互动不断更新、不断变化的结构化心理表征 。
这个方向和我们想要做的“心理世界模型”是互相补充的:我们不再满足于让模型只做一两步的推理,而是希望它能在和人长时间合作的过程中,一直维护、更新它对别人的理解。虽然 ExploreToM 现在主要是用来测试模型,但是未来应该把这种“追踪别人信念”和“根据社会反馈调整理解”的能力纳入训练里,让模型能在开放的、真实的环境中更灵活地换位思考、理解他人的视角。
记忆
记忆能力是智能体的核心能力,不可能存在一种没有记忆能力却具备高级智能能力的物体,这也是即便ChatGPT似乎通过了图灵测试但人们却否认其拥有智慧的一个重要原因。
在当下的神经网络架构中,记忆包括以下形式:
- 固定记忆(Fixed Memory):也就是神经网络模型的权重,通过预训练学到,在推理阶段保持不变;想要更新固定记忆很困难,需要微调,并且会面临灾难性遗忘的风险。同时权重的数量是预先设定的,微调不会增加模型的记忆总容量。
- 工作记忆(Working Memory):模型在计算过程中产生的激活值(Activations),在序列模型中激活值会被反复调用,所以在功能上体现了记忆的特性
- 外部记忆(External Memory):存储在架构之外的原始信息,通过特定机制访问,比如RAG,技术,通过将数据embedding到向量数据库中来实现快速检索。
Meta的工作人员认为,世界模型的未来在于情景记忆(Episodic Memory),其核心特点是记忆可以随着与环境交互而扩展生长,因此其必须能够满足:
- 个性化:Personalization,区别于当下的微调,其目的在于针对特定用户制作一个资源效率极高的数值子集
- 终身学习:Life-long Training,其目标在于模型能够在与环境交互时永远学习,并且记忆容量的增长速度必须慢于时间和交互的增长速度
现有的 Transformer 架构难以支撑真正的具身智能 ,因为它们缺乏一种既能实时更新、又能高效压缩历史信息的记忆机制。
未来的方向不是单纯地堆砌更大的上下文窗口(KV-cache)或更大的外部数据库(RAG),而是开发一种 动态的、可压缩的内部表征 ,使智能体能够像人类一样拥有“情景记忆”,在漫长的生命周期中持续学习和进化。
Benchmarks
常见的Benchmarks包括:
- Minimal Video Pairs (MVP) benchmark
- IntPhys2 video-based benchmark
- CausalVQA
- World Prediction Benchmark