跳转至

智能体发展史

概述

智能体(Agent)的概念从 1950 年代的思想实验起步,经历了符号主义、行为主义、混合架构、互联网时代到大语言模型时代的多次范式转变。本文梳理智能体发展的完整时间线,分析每个里程碑的技术贡献与历史意义。


发展时间线

timeline
    title 智能体发展史 (1950-2025)
    section 早期探索 (1950-1970)
        1950 : 图灵测试 - 定义"机器智能"
        1956 : 达特茅斯会议 - AI学科诞生
        1966 : ELIZA - 首个对话智能体
        1969 : Shakey - 首个通用移动机器人
        1971 : SHRDLU - 自然语言理解系统
    section 知识时代 (1970-1990)
        1972 : MYCIN - 专家系统先驱
        1980s : 专家系统黄金时代
        1987 : BDI模型 - 理性智能体理论基础
        1986 : Brooks包容架构 - 行为主义智能体
    section 多智能体时代 (1990-2010)
        1994 : Softbots - 软件智能体概念
        1995 : KQML/ACL - 智能体通信语言
        2002 : AAMAS - 多智能体系统顶会成立
        2003 : SOAR 9 - 认知架构成熟
    section 深度学习时代 (2010-2020)
        2011 : Siri - 首个主流语音助手
        2014 : Alexa/Cortana - 智能助手普及
        2016 : AlphaGo - 深度RL里程碑
        2017 : Transformer - 注意力机制革命
    section 大模型智能体时代 (2020-2025)
        2022 : ChatGPT - LLM对话智能体
        2023 : AutoGPT/BabyAGI - 自主智能体
        2023 : GPT-4 Function Calling
        2024 : Claude Code - 编程智能体
        2025 : OpenAI Operator - 浏览器智能体

1. 理论奠基期 (1950-1966)

1.1 图灵测试 (1950)

Alan Turing 在论文《Computing Machinery and Intelligence》中提出了著名的"模仿游戏"(Imitation Game),奠定了智能体研究的哲学基础。

核心贡献

  • 提出判定机器智能的操作性标准
  • 将"机器能否思考"转化为可检验的行为问题
  • 预见了对话式智能体的核心挑战

1.2 达特茅斯会议 (1956)

McCarthy、Minsky、Shannon、Rochester 等人组织的这次会议,正式确立了"人工智能"作为一个学科的地位。

核心贡献

  • 定义了 AI 研究的基本目标和方法论
  • 催生了符号主义(Symbolic AI)的研究路线
  • 为后续智能体研究提供了学科框架

1.3 ELIZA (1966)

Joseph Weizenbaum 在 MIT 开发的 ELIZA 是第一个能与人类进行自然语言对话的程序。

核心贡献

  • 证明了简单的模式匹配即可产生"智能"的幻觉
  • 首次揭示了人类对机器的拟人化倾向(ELIZA效应)
  • 虽然没有真正的"理解",但开创了对话智能体的先河

2. 符号主义高峰期 (1969-1990)

2.1 Shakey (1969)

SRI International 开发的 Shakey 是第一个能够自主推理和规划行动的通用移动机器人。

核心贡献

  • 集成了感知、规划与执行的完整智能体循环
  • 使用 STRIPS(Stanford Research Institute Problem Solver)作为规划器
  • 证明了符号推理可以驱动物理世界的行动

2.2 SHRDLU (1971)

Terry Winograd 的 SHRDLU 能够理解自然语言指令并操作虚拟积木世界。

核心贡献

  • 展示了语言理解与行动执行的结合
  • 证明了受限领域内的"深度理解"是可能的
  • 揭示了开放世界理解的根本困难

2.3 专家系统时代 (1970s-1980s)

MYCIN(医疗诊断)、DENDRAL(化学分析)、R1/XCON(计算机配置)等专家系统证明了知识驱动的智能体在特定领域的实用价值。

核心贡献

  • 引入了知识库(Knowledge Base)+ 推理引擎(Inference Engine)的架构模式
  • 不确定性推理:MYCIN 引入了确定性因子(Certainty Factor)
  • 首次实现了 AI 系统的商业化部署

2.4 BDI 模型 (1987)

Bratman 提出的信念-愿望-意图(Belief-Desire-Intention)模型为理性智能体提供了严格的哲学和计算基础。

核心贡献

  • 形式化定义了智能体的心理状态
  • 提供了从信念到行动的理性决策框架
  • 催生了 PRS、AgentSpeak(L) 等实现

交叉引用

BDI 模型的详细形式化描述见 BDI模型

2.5 Brooks 包容架构 (1986)

Rodney Brooks 提出的包容架构(Subsumption Architecture)挑战了符号主义的主导地位。

核心贡献

  • 提出"世界是它自己最好的模型"——无需内部表征
  • 行为层叠加:低层行为优先,高层行为可抑制低层
  • 开创了行为主义(Behavior-based)智能体研究

3. 多智能体与互联网时代 (1994-2010)

3.1 Softbots (1994)

Etzioni 和 Weld 提出了"软件智能体"(Softbot)的概念——在数字环境中自主执行任务的程序。

核心贡献

  • 将智能体概念从物理世界拓展到数字世界
  • 预见了后来的网页爬虫、自动化脚本、RPA
  • 提出了软件智能体的安全和信任问题

3.2 智能体通信语言 (1995-2002)

KQML(Knowledge Query and Manipulation Language)和 FIPA ACL 为智能体间的通信提供了标准化协议。

核心贡献

  • 定义了言语行为(Speech Acts)在智能体通信中的应用
  • 制定了消息格式、交互协议和本体(Ontology)标准
  • 为多智能体系统的互操作奠定了基础

3.3 AAMAS 会议 (2002)

International Conference on Autonomous Agents and Multiagent Systems 的成立标志着多智能体研究成为独立领域。


4. 深度学习与语音助手时代 (2011-2020)

4.1 Siri (2011)

Apple 的 Siri 将智能助手带入了主流消费市场。

核心贡献

  • 集成了语音识别、自然语言理解、任务执行的完整管道
  • 证明了智能体可以作为大众消费产品
  • 开启了 Alexa (2014)、Google Assistant (2016)、Cortana (2014) 的竞争

4.2 AlphaGo (2016)

DeepMind 的 AlphaGo 在围棋领域击败了世界冠军李世石。

核心贡献

  • 证明了深度强化学习在复杂决策任务中的超人能力
  • 结合了蒙特卡洛树搜索(MCTS)与深度神经网络
  • 启发了后续将 RL 应用于更广泛智能体任务的研究

4.3 Transformer (2017)

Vaswani 等人提出的 Transformer 架构彻底改变了 NLP,为后来的 LLM 智能体奠定了技术基础。


5. 大语言模型智能体时代 (2022-2025)

5.1 ChatGPT (2022)

OpenAI 的 ChatGPT 展示了 LLM 作为对话智能体的强大能力。

核心贡献

  • 基于 RLHF 对齐的 LLM 首次实现了流畅、有用的多轮对话
  • 将 AI 智能体从研究实验室带入了数亿用户
  • 催生了 LLM 智能体研究的爆发式增长

5.2 AutoGPT 与 BabyAGI (2023年3月)

Significant Gravitas 的 AutoGPT 和 Yohei Nakajima 的 BabyAGI 是首批自主 LLM 智能体。

核心贡献

  • 证明了 LLM 可以自主分解任务、规划步骤并执行
  • 引入了任务队列、记忆存储、自我反思等机制
  • 虽然实际可靠性有限,但激发了整个领域的想象力

5.3 GPT-4 Function Calling (2023年6月)

OpenAI 为 GPT-4 引入了结构化的函数调用能力。

核心贡献

  • 将工具使用从 prompt engineering 提升为原生能力
  • 标准化了 LLM 与外部工具的交互接口
  • 为后续的智能体框架(LangChain、LangGraph)提供了基础设施

5.4 Claude Code (2024)

Anthropic 推出的 Claude Code 是首批生产级编程智能体之一。

核心贡献

  • 证明了 LLM 智能体可以在真实软件工程任务中可靠工作
  • 集成了代码理解、文件操作、测试执行的完整工作流
  • 展示了 Human-in-the-Loop 的交互模式

5.5 OpenAI Operator (2025年1月)

OpenAI 推出了能够自主浏览网页并完成任务的 Operator 智能体。

核心贡献

  • 首个商业化的浏览器自主智能体
  • 能够处理网页导航、表单填写、购物等复杂任务
  • 推动了智能体从"对话"到"行动"的范式转变

技术演进的核心主线

时代 核心范式 知识来源 推理方式 行动能力
符号主义 (1950-1990) 规则+逻辑 人工编码 演绎推理 受限环境
行为主义 (1986-2000) 反应式 环境交互 无显式推理 物理世界
统计学习 (2000-2020) 数据驱动 标注数据 模式匹配 分类/预测
LLM时代 (2020-) 语言驱动 预训练语料 类比推理+CoT 工具调用+自主行动

关键观察

  1. 从专用到通用:智能体从特定任务(MYCIN的医疗诊断)走向通用能力(GPT-4的多领域任务)
  2. 从显式到隐式知识:从人工编码规则到从数据中自动学习
  3. 从被动到自主:从用户驱动的问答到智能体主动规划和执行
  4. 从单一到多模态:从纯文本到整合视觉、语音、代码等多种模态
  5. 从封闭到开放环境:从虚拟积木世界到真实网页、文件系统和物理世界

参考文献

  1. Turing, A.M. (1950). Computing Machinery and Intelligence. Mind, 59(236), 433-460.
  2. Weizenbaum, J. (1966). ELIZA - A Computer Program For the Study of Natural Language Communication Between Man And Machine. CACM, 9(1), 36-45.
  3. Nilsson, N.J. (1984). Shakey the Robot. SRI International Technical Note 323.
  4. Bratman, M.E. (1987). Intention, Plans, and Practical Reason. Harvard University Press.
  5. Brooks, R.A. (1986). A Robust Layered Control System For a Mobile Robot. IEEE Journal on Robotics and Automation, 2(1), 14-23.
  6. Etzioni, O. & Weld, D. (1994). A Softbot-based Interface to the Internet. CACM, 37(7), 72-76.
  7. Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS 2017.
  8. Significant Gravitas. (2023). AutoGPT. GitHub Repository.
  9. OpenAI. (2023). GPT-4 Technical Report. arXiv:2303.08774.

评论 #