跳转至

智能体里程碑

概述

本文回顾从 1960 年代至今的智能体技术里程碑,每个系统都在某个维度上实现了突破性进展。通过分析这些里程碑,我们可以看到智能体技术从规则系统到学习系统、从专用到通用的演进脉络。


里程碑时间线

timeline
    title 智能体技术里程碑
    section 对话与理解
        1966 ELIZA : 首个对话程序
        1971 SHRDLU : 受限世界的语言理解
        2011 Siri : 主流语音助手
        2022 ChatGPT : LLM 对话智能体
    section 知识与推理
        1972 MYCIN : 医疗专家系统
        1987 BDI : 理性智能体理论
        1991 SOAR : 通用认知架构
        2023 CoT/ReAct : LLM推理+行动
    section 规划与行动
        1969 Shakey : 自主移动机器人
        1997 Deep Blue : 博弈搜索
        2016 AlphaGo : 深度RL决策
        2023 Voyager : 开放世界探索
    section 自主智能体
        2023 AutoGPT : 自主任务执行
        2023 BabyAGI : 任务驱动智能体
        2024 Claude Code : 编程智能体
        2024 Devin : 自主软件工程师
        2025 Operator : 浏览器智能体

1. ELIZA (1966) — 对话的幻觉

开发者:Joseph Weizenbaum, MIT

技术方案:基于模式匹配和替换规则的对话系统,模拟罗杰斯心理治疗师。

突破意义

  • 首次证明人类会将情感投射到机器对话中(ELIZA 效应)
  • 揭示了"理解"与"表现得像理解"之间的哲学鸿沟
  • 开创了人机对话研究

核心机制

用户输入 → 关键词匹配 → 模板填充 → 回复输出

后续影响:所有对话系统的精神先驱,从 Alexa 到 ChatGPT。


2. MYCIN (1972) — 知识的力量

开发者:Edward Shortliffe, Stanford

技术方案:基于 ~600 条产生式规则的医疗诊断专家系统,使用确定性因子(Certainty Factor)处理不确定性。

确定性因子计算

\[ CF(H, E) = MB(H, E) - MD(H, E) \]

其中 \(MB\) 为信念度量(Measure of Belief),\(MD\) 为怀疑度量(Measure of Disbelief)。

突破意义

  • 首个在特定领域达到专家水平的 AI 系统
  • 证明了知识(而非推理算法)是智能的关键
  • 引入了不确定性推理的实用框架

3. Shakey (1969) — 思考与行动的统一

开发者:SRI International

技术方案:集成视觉感知、符号推理(STRIPS 规划器)和运动控制的移动机器人。

突破意义

  • 首个将感知-规划-执行集成为完整循环的物理智能体
  • STRIPS 规划表示至今仍是规划研究的基础
  • 证明了符号推理可以驱动物理行动

4. BDI 模型 (1987) — 理性的形式化

提出者:Michael Bratman, Stanford

技术方案:基于意向性哲学的理性智能体形式化模型。

形式化表示

\[ \text{Agent} = \langle B, D, I, \text{Plan Library} \rangle \]
  • \(B\):信念集(关于世界状态的信息)
  • \(D\):愿望集(期望达成的目标)
  • \(I\):意图集(承诺执行的计划)

突破意义

  • 为智能体的"心理状态"提供了严格的哲学和计算基础
  • 催生了 PRS、AgentSpeak(L)、Jason 等实用系统
  • BDI 循环至今仍是智能体设计的核心模式

交叉引用

BDI 模型的完整形式化与实现详见 BDI模型


5. SOAR (1991) — 通用认知架构

开发者:John Laird, Allen Newell, Paul Rosenbloom

技术方案:基于问题空间搜索的通用认知架构,通过 chunking 实现学习。

突破意义

  • 首个旨在实现通用智能的认知架构
  • 统一了问题求解、学习和知识表示
  • 持续发展超过 30 年,影响了后续所有认知架构研究

6. Deep Blue (1997) — 搜索的极致

开发者:IBM

技术方案:专用硬件 + Alpha-Beta 剪枝 + 开局库 + 残局库,每秒评估 2 亿个棋局。

突破意义

  • 首次在智力竞赛中击败人类世界冠军(Garry Kasparov)
  • 证明了暴力搜索 + 领域知识的强大威力
  • 但批评者认为这不是"真正的智能"

7. AlphaGo (2016) — 学习超越知识

开发者:DeepMind

技术方案:深度神经网络(策略网络 + 价值网络)+ 蒙特卡洛树搜索(MCTS)+ 自我对弈强化学习。

选择动作的 MCTS 评估

\[ a^* = \arg\max_a \left[ Q(s, a) + c_{puct} \cdot P(s, a) \cdot \frac{\sqrt{N(s)}}{1 + N(s, a)} \right] \]

突破意义

  • 在围棋(\(10^{170}\) 状态空间)中超越人类,此前被认为需要 20 年
  • 证明了深度 RL 在复杂决策任务中的超人能力
  • AlphaZero (2017) 进一步证明无需人类知识,纯自我对弈即可达到超人水平

8. GPT-3 (2020) — 语言即智能

开发者:OpenAI

技术方案:175B 参数的自回归语言模型,展示了强大的 few-shot 学习能力。

突破意义

  • 证明了足够大的语言模型能够执行多种任务而无需微调
  • In-context learning 开启了 prompt engineering 时代
  • 为后续的 LLM 智能体(ChatGPT、AutoGPT)奠定了基础

9. AutoGPT / BabyAGI (2023年3月) — 自主的觉醒

AutoGPT

开发者:Significant Gravitas (Toran Bruce Richards)

技术方案:GPT-4 + 任务分解 + 记忆存储 + 网络访问 + 自我提示循环。

BabyAGI

开发者:Yohei Nakajima

技术方案:GPT-4 + 任务创建/优先级排序/执行的循环 + 向量数据库记忆。

共同突破

  • 首次展示了 LLM 自主分解和执行复杂任务的可能性
  • 引发了全球范围内对自主智能体的关注和投资
  • 虽然实际可靠性有限,但定义了后续研究的方向

10. Voyager (2023) — 开放世界的终身学习

开发者:NVIDIA + Caltech + UT Austin

技术方案:在 Minecraft 中,GPT-4 驱动的智能体通过代码生成实现技能获取、技能库积累和自动课程设计。

突破意义

  • 首个在开放世界中实现终身学习的 LLM 智能体
  • 技能库(Skill Library)机制允许知识的积累和复用
  • 自动课程(Automatic Curriculum)实现了由简到难的自主探索

11. Claude Code (2024) — 可靠的编程伙伴

开发者:Anthropic

技术方案:Claude 模型 + 文件系统操作 + 命令行执行 + 多轮交互 + Human-in-the-Loop。

突破意义

  • 首批生产级编程智能体之一
  • 证明了 LLM 智能体可以在真实软件工程任务中可靠工作
  • Human-in-the-Loop 模式平衡了自主性与安全性

12. Devin (2024) — 自主软件工程师

开发者:Cognition AI

技术方案:集成 IDE、浏览器、终端的全栈自主编程智能体。

突破意义

  • 首个声称"AI 软件工程师"的商业产品
  • 在 SWE-bench 上取得了显著成绩
  • 引发了关于 AI 是否会取代程序员的广泛讨论

13. OpenAI Operator (2025年1月) — 浏览器中的自主体

开发者:OpenAI

技术方案:基于 GPT-4 的浏览器智能体,能够自主浏览网页、填写表单、完成购物等任务。

突破意义

  • 首个商业化的浏览器自主智能体
  • 将智能体从"对话"延伸到"代替人类操作界面"
  • 推动了 Computer Use 范式的发展

里程碑对比分析

里程碑 知识来源 推理方式 行动空间 学习能力 通用性
ELIZA 手工规则 模式匹配 文本回复 单领域
MYCIN 专家知识 前向/后向链 诊断建议 单领域
Shakey 手工模型 STRIPS规划 物理移动 受限环境
SOAR 产生式规则 问题空间搜索 符号操作 Chunking 多领域
Deep Blue 评估函数 Alpha-Beta搜索 棋步 单领域
AlphaGo 自我对弈 MCTS+NN 棋步 深度RL 棋类
GPT-3 预训练语料 自回归生成 文本 In-context 多领域
AutoGPT 预训练+工具 CoT+反思 文本+工具 记忆积累 多领域
Voyager 预训练+代码 CoT+代码生成 Minecraft 技能库 游戏世界
Claude Code 预训练+工具 多步推理 代码+文件+CLI 上下文学习 软件工程
Operator 预训练+浏览器 视觉+推理 网页操作 上下文学习 网页任务

发展规律

1. 能力跃迁模式

每次重大突破都遵循类似模式:

graph LR
    A[理论提出] --> B[受限原型]
    B --> C[领域验证]
    C --> D[工程优化]
    D --> E[规模化部署]
    E --> F[催生新理论]
    F --> A

2. 关键转折点

  1. 知识获取瓶颈 (1980s):专家系统的知识工程成本过高 → 推动了机器学习的兴起
  2. 符号接地问题 (1990s):符号系统缺乏感知和运动基础 → 推动了具身智能体研究
  3. 数据驱动革命 (2010s):深度学习证明了从数据中学习表征的威力
  4. 语言作为接口 (2020s):LLM 将自然语言变为了智能体的通用控制接口

3. 未解问题

  • 长期规划:现有智能体仍难以进行超过数十步的可靠规划
  • 世界模型:LLM 的"世界知识"与真正的因果世界模型之间的差距
  • 持续学习:如何在不遗忘旧知识的情况下持续积累新能力
  • 安全对齐:如何确保高度自主的智能体符合人类意图

参考文献

  1. Weizenbaum, J. (1966). ELIZA. CACM, 9(1), 36-45.
  2. Shortliffe, E.H. (1976). Computer-Based Medical Consultations: MYCIN. Elsevier.
  3. Nilsson, N.J. (1984). Shakey the Robot. SRI International.
  4. Bratman, M.E. (1987). Intention, Plans, and Practical Reason. Harvard.
  5. Laird, J.E. (2012). The Soar Cognitive Architecture. MIT Press.
  6. Silver, D. et al. (2016). Mastering the Game of Go with Deep Neural Networks and Tree Search. Nature, 529, 484-489.
  7. Brown, T. et al. (2020). Language Models are Few-Shot Learners. NeurIPS 2020.
  8. Wang, G. et al. (2023). Voyager: An Open-Ended Embodied Agent with Large Language Models. arXiv:2305.16291.

评论 #