跳转至

具身认知理论

概述

具身认知(Embodied Cognition)是认知科学中的一场范式革命,主张认知不仅仅是大脑中的计算,而是根植于身体与环境的持续交互之中。这一理论对人工智能研究具有深远影响——它解释了为什么纯符号系统和纯语言模型可能不足以实现通用智能,以及为什么具身经验对于真正的理解至关重要。


1. 理论起源:Varela 与《具身心智》

1.1 背景

1991 年,Francisco Varela、Evan Thompson 和 Eleanor Rosch 出版了划时代的著作 The Embodied Mind: Cognitive Science and Human Experience。这本书从三个方向对传统认知科学的计算主义范式发起了挑战:

  • 现象学:Merleau-Ponty 的身体现象学——感知不是被动接收,而是主动的身体探索
  • 佛教哲学:正念传统中对经验的第一人称考察
  • 生物学:自创生(autopoiesis)理论——生命系统通过自我组织维持自身

1.2 核心主张

"认知不是预先给定的世界的表征,而是通过存在于世界中的生命体的各种行动,而制定或引发出来的。" —— Varela et al., 1991

传统认知科学将心智视为:

\[\text{输入} \xrightarrow{\text{符号计算}} \text{输出}\]

具身认知将心智视为:

\[\text{认知} = f(\text{身体}, \text{环境}, \text{行动}, \text{历史})\]

2. 4E 认知框架

4E 认知是具身认知的扩展框架,包含四个维度:

2.1 Embodied(具身的)

定义:认知依赖于拥有特定形态身体的经验。

身体不仅是心智的载体,更是认知的构成部分。不同的身体形态导致不同的认知方式:

  • 人类的双手使我们发展出工具使用的认知能力
  • 蝙蝠的回声定位产生了与人类截然不同的空间认知
  • 机器人的形态(轮式 vs 腿式 vs 飞行)决定了其认知策略

对机器人学的启示:机器人的身体形态不仅影响其行动能力,更影响其应采用的学习和表征策略。

2.2 Embedded(嵌入的)

定义:认知嵌入在特定的物理和社会环境中,环境结构是认知的重要资源。

环境不是被动的背景,而是认知系统的一部分:

  • 环境中的结构:厨房的布局"记忆"了烹饪流程
  • 情境认知(Situated Cognition):知识依赖于使用的情境
  • 生态位:智能体与环境共同演化

对机器人学的启示:机器人不应试图建立完整的世界模型,而应善于利用环境提供的结构和约束。

2.3 Enacted(生成的)

定义:认知通过智能体与环境的持续交互而生成,不是预先存在的世界的被动反映。

核心概念——生成主义(Enactivism):

  • 感知不是被动接收信号,而是通过探索行动生成的
  • 意义不是从世界中提取的,而是在交互中创造的
  • 范畴和概念在行动中涌现

2.4 Extended(延展的)

定义:认知过程可以延伸到身体之外,包括工具、技术和其他人。

Clark & Chalmers (1998) 的延展心智假说

  • 笔记本可以是记忆系统的一部分
  • 计算器延展了数学推理能力
  • 智能手机成为了"延展的心智"

对机器人学的启示:机器人可以将部分认知过程"外包"给云端计算、其他机器人或人类协作者。


3. 生成主义深入:自创生与结构耦合

3.1 自创生(Autopoiesis)

由 Maturana 和 Varela 提出的概念,描述生命系统的核心特征:

自创生系统是一个组织封闭但结构开放的系统,它通过自身组分的相互作用持续地产生和维持自身。

形式化描述

设系统 \(S\) 的组分集合为 \(\{c_1, c_2, \ldots, c_n\}\),则自创生要求:

\[\forall c_i \in S: \quad c_i = P(c_1, \ldots, c_n, E)\]

即每个组分都由系统内其他组分和环境 \(E\) 的交互所产生。

与机器人学的关联:自创生强调系统的自我维持能力。一个真正具身的智能系统应该能够:

  • 监测自身状态(能量、磨损、校准偏差)
  • 主动维护自身功能
  • 在面对扰动时保持组织完整性

3.2 结构耦合(Structural Coupling)

当自创生系统与环境之间发生持续的相互作用时,二者的结构会发生共同变化:

\[S_{t+1} = g(S_t, E_t), \quad E_{t+1} = h(E_t, S_t)\]

随时间推移,系统和环境变得越来越"适配"。这就是适应的本质——不是单方面的优化,而是双向的结构变化。

对机器人学的启示

  • 机器人不应只适应环境,还应主动改变环境(如整理工作空间)
  • 长期部署的机器人会与其环境形成独特的耦合关系
  • 这解释了为什么仿真中训练的策略需要适应(fine-tune)到真实环境

4. 感觉运动偶然性理论

4.1 O'Regan & Noe 的理论

O'Regan 和 Noe (2001) 提出了感觉运动偶然性理论(Sensorimotor Contingency Theory),主张:

感知不是内部表征的构建,而是对感觉运动偶然性(sensorimotor contingencies)的实际掌握。

感觉运动偶然性:指感觉输入如何随运动动作而规律性变化。

例如,"看见"一个杯子意味着:

  • 知道绕着它走会看到什么
  • 知道伸手去拿会有什么触觉
  • 知道推它会怎么移动

4.2 形式化

设感觉输入为 \(o\),动作为 \(a\),环境状态为 \(e\),则感觉运动偶然性可表示为:

\[\phi: (o_t, a_t) \mapsto o_{t+1}\]

对某类物体的"理解"等价于掌握了关于该物体的感觉运动偶然性集合 \(\Phi = \{\phi_1, \phi_2, \ldots\}\)

4.3 对机器人学的意义

  • 主动感知:机器人应主动探索来获取感觉运动偶然性
  • 交互式表征:物体的表征应包含交互信息(affordance)
  • 多模态融合:真正的"理解"需要跨越视觉、触觉、运动等多模态

5. 符号接地问题与为什么 LLM 不够

5.1 Harnad 的符号接地问题

Stevan Harnad (1990) 提出了符号接地问题(Symbol Grounding Problem):

纯符号系统中的符号如何获得意义?如果符号的含义只是由其他符号来定义(如字典中的循环定义),那么系统永远无法真正"理解"任何东西。

这就是著名的中文房间论证(Searle, 1980)的形式化版本。

5.2 LLM 的接地缺失

大语言模型(LLM)在以下意义上缺乏接地:

维度 人类认知 LLM 具身AI
感觉经验 丰富的多模态体验 有(传感器)
因果理解 通过操作理解因果 统计相关 交互验证
物理直觉 具身经验积累 语言描述间接获取 直接物理交互
意义来源 身体经验+社会交互 文本共现统计 感觉运动偶然性

5.3 具身接地的必要性

Bisk et al. (2020) 提出了语言接地的五个层次:

  1. 语料库(Corpus):纯文本统计 ← LLM 在此
  2. 互联网(Internet):多模态网络数据 ← VLM 在此
  3. 感知(Perception):与物理世界的感知接口 ← 具身 AI 从此开始
  4. 具身(Embodiment):通过身体与世界交互
  5. 社会(Social):与其他智能体的社会交互

5.4 融合方案

当前最前沿的研究试图将 LLM 的语言知识与具身经验结合:

  • SayCan:LLM 提供语义知识,机器人提供可行性评估
  • RT-2/VLA:将语言理解与动作控制统一在单一模型中
  • 具身世界模型:通过视频预测学习物理规律

这些工作的共同目标是:将符号知识接地到物理交互中


6. 对具身 AI 研究的指导意义

6.1 设计原则

基于具身认知理论,具身 AI 系统的设计应遵循:

  1. 身体先于心智:先设计好身体和传感器,再设计算法
  2. 交互优于表征:好的行为比精确的内部模型更重要
  3. 环境是资源:利用环境结构简化认知负荷
  4. 发展性学习:像婴儿一样从简单到复杂渐进式学习
  5. 多模态整合:综合利用所有可用的感觉通道

6.2 开放问题

  • 具身经验对于通用智能是否是必要的还是仅仅是有益的
  • 仿真中的具身经验是否等价于真实世界的具身经验?
  • 如何量化"具身性"的程度?
  • 4E 认知框架能否形式化为可计算的理论?

参考资料

  • Varela, F. J., Thompson, E., & Rosch, E. (1991). The Embodied Mind
  • Clark, A., & Chalmers, D. (1998). "The Extended Mind"
  • O'Regan, J. K., & Noe, A. (2001). "A Sensorimotor Account of Vision and Visual Consciousness"
  • Harnad, S. (1990). "The Symbol Grounding Problem"
  • Bisk, Y. et al. (2020). "Experience Grounds Language"
  • Maturana, H. R., & Varela, F. J. (1980). Autopoiesis and Cognition

相关笔记


评论 #