认知架构综述
概述
认知架构(Cognitive Architecture)是对智能体内部信息处理结构的系统描述,它定义了智能体如何感知、推理、学习和行动。从 1950 年代的早期探索到今天的 LLM 驱动架构,认知架构始终是智能体研究的核心议题。
什么是认知架构?
认知架构是一种关于智能系统基本计算结构的理论,它回答:
- 表征:智能体如何表示知识?
- 推理:智能体如何利用知识做出决策?
- 学习:智能体如何从经验中获取新知识?
- 记忆:智能体如何存储和检索信息?
- 执行:智能体如何将决策转化为行动?
形式化地,认知架构可以定义为一个元组:
\[
\mathcal{A} = \langle \mathcal{M}, \mathcal{R}, \mathcal{L}, \mathcal{P}, \mathcal{E} \rangle
\]
其中:
- \(\mathcal{M}\):记忆系统(短期记忆 + 长期记忆)
- \(\mathcal{R}\):推理机制(规则匹配、搜索、神经推理)
- \(\mathcal{L}\):学习机制(chunking、强化学习、梯度下降)
- \(\mathcal{P}\):感知模块(输入处理与编码)
- \(\mathcal{E}\):执行模块(动作选择与输出生成)
三大范式
graph TD
A[认知架构范式] --> B[符号主义<br/>Symbolic]
A --> C[联结主义<br/>Connectionist]
A --> D[混合架构<br/>Hybrid]
B --> B1[SOAR]
B --> B2[ACT-R]
B --> B3[BDI/PRS]
C --> C1[神经网络]
C --> C2[深度学习]
C --> C3[Transformer/LLM]
D --> D1[ACT-R 6.0<br/>符号+统计]
D --> D2[CoALA<br/>LLM+结构化记忆]
D --> D3[RAISE<br/>LLM+认知模块]
1. 符号主义架构
核心思想:智能是符号操作。知识以显式符号(规则、逻辑公式、语义网络)表示,推理通过符号变换实现。
代表架构:
| 架构 | 开发者 | 核心机制 |
|---|---|---|
| SOAR | Laird, Newell, Rosenbloom | 问题空间搜索 + Chunking |
| ACT-R | Anderson | 产生式规则 + 激活传播 |
| BDI/PRS | Bratman, Georgeff | 信念-愿望-意图推理 |
| Icarus | Langley | 概念层级 + 技能执行 |
优点:可解释性强、推理严密、知识可编辑
缺点:知识获取瓶颈、缺乏鲁棒性、难以处理感知数据
2. 联结主义架构
核心思想:智能涌现于大量简单单元的连接。知识分布式存储在连接权重中。
代表架构:
| 架构 | 核心机制 |
|---|---|
| 感知机/MLP | 前馈网络 + 反向传播 |
| RNN/LSTM | 循环连接 + 门控机制 |
| Transformer | 自注意力 + 位置编码 |
| LLM (GPT/Claude) | 大规模预训练 + RLHF |
优点:从数据中自动学习、鲁棒性强、处理高维输入
缺点:可解释性差、推理不可靠、知识难以编辑
3. 混合架构
核心思想:结合符号和联结主义的优势,用神经网络处理感知和学习,用符号系统处理推理和规划。
现代混合架构:
- CoALA(Cognitive Architectures for Language Agents):LLM 作为推理核心 + 结构化记忆模块
- RAISE:LLM + 显式的反思、规划、记忆模块
- LLM + 工具调用:LLM 的隐式推理 + 外部工具的精确计算
认知架构的核心组件
记忆系统
┌──────────────────────────────────────┐
│ 长期记忆 (LTM) │
│ ┌─────────┐ ┌─────────┐ ┌──────┐ │
│ │ 声明式 │ │ 程序式 │ │ 情景 │ │
│ │ (事实) │ │ (技能) │ │(经历)│ │
│ └─────────┘ └─────────┘ └──────┘ │
├──────────────────────────────────────┤
│ 工作记忆 / 短期记忆 (STM) │
│ 当前上下文、活跃目标、临时信息 │
├──────────────────────────────────────┤
│ 感知缓冲区 │
│ 原始输入数据的临时存储 │
└──────────────────────────────────────┘
交叉引用
记忆系统的详细讨论见 记忆系统。
推理与决策
不同架构的推理机制差异巨大:
| 架构类型 | 推理机制 | 决策速度 | 推理质量 |
|---|---|---|---|
| 规则匹配 | 条件-动作规则 | 快 | 受限于规则质量 |
| 搜索 | 状态空间搜索 | 慢 | 最优但计算密集 |
| 概率推理 | 贝叶斯网络 | 中等 | 处理不确定性 |
| 神经推理 | 前馈/自回归 | 快 | 模式匹配,非逻辑 |
| LLM推理 | CoT/ReAct | 中等 | 灵活但不可靠 |
学习机制
| 架构 | 学习方式 | 描述 |
|---|---|---|
| SOAR | Chunking | 将成功的搜索路径编译为直接规则 |
| ACT-R | 激活调整 | 根据使用频率和时间调整记忆激活值 |
| 神经网络 | 梯度下降 | 通过损失函数优化连接权重 |
| LLM Agent | In-context Learning | 在上下文窗口中学习,无权重更新 |
| LLM Agent | 经验积累 | 将反思存入外部记忆供未来检索 |
从经典到现代的演进
graph LR
A[经典符号架构<br/>1960-1990] -->|知识获取瓶颈| B[统计学习<br/>1990-2010]
B -->|深度学习革命| C[神经架构<br/>2010-2020]
C -->|规模化+预训练| D[LLM智能体架构<br/>2020-]
D -->|结构化+可控| E[混合架构<br/>CoALA/RAISE]
关键转折:
- 1990s:符号系统的知识获取瓶颈推动了统计方法的兴起
- 2012:AlexNet 证明了深度学习的威力,联结主义全面复兴
- 2017:Transformer 统一了 NLP 架构
- 2022:ChatGPT 展示 LLM 作为通用认知引擎的潜力
- 2024:CoALA 等框架尝试用认知架构理论来理解和改进 LLM 智能体
本章内容导引
| 文件 | 主题 | 核心问题 |
|---|---|---|
| BDI模型 | 信念-愿望-意图 | 如何形式化智能体的理性行为? |
| ACT-R与SOAR | 经典认知架构 | 如何统一记忆、学习和推理? |
| LLM认知架构 | 现代架构 | LLM 如何映射到认知功能? |
| 世界模型与内部表征 | 内部表征 | 智能体如何模拟和预测世界? |
| 架构设计模式 | 工程模式 | 如何组织智能体的计算组件? |
参考文献
- Newell, A. (1990). Unified Theories of Cognition. Harvard University Press.
- Anderson, J.R. (2007). How Can the Human Mind Occur in the Physical Universe? Oxford University Press.
- Laird, J.E. (2012). The Soar Cognitive Architecture. MIT Press.
- Sumers, T. et al. (2024). Cognitive Architectures for Language Agents. arXiv:2309.02427.
- Kotseruba, I. & Tsotsos, J.K. (2020). 40 Years of Cognitive Architectures: Core Cognitive Abilities and Practical Applications. AI Review, 53, 17-94.