智能体发展史
概述
智能体(Agent)的概念从 1950 年代的思想实验起步,经历了符号主义、行为主义、混合架构、互联网时代到大语言模型时代的多次范式转变。本文梳理智能体发展的完整时间线,分析每个里程碑的技术贡献与历史意义。
发展时间线
timeline
title 智能体发展史 (1950-2025)
section 早期探索 (1950-1970)
1950 : 图灵测试 - 定义"机器智能"
1956 : 达特茅斯会议 - AI学科诞生
1966 : ELIZA - 首个对话智能体
1969 : Shakey - 首个通用移动机器人
1971 : SHRDLU - 自然语言理解系统
section 知识时代 (1970-1990)
1972 : MYCIN - 专家系统先驱
1980s : 专家系统黄金时代
1987 : BDI模型 - 理性智能体理论基础
1986 : Brooks包容架构 - 行为主义智能体
section 多智能体时代 (1990-2010)
1994 : Softbots - 软件智能体概念
1995 : KQML/ACL - 智能体通信语言
2002 : AAMAS - 多智能体系统顶会成立
2003 : SOAR 9 - 认知架构成熟
section 深度学习时代 (2010-2020)
2011 : Siri - 首个主流语音助手
2014 : Alexa/Cortana - 智能助手普及
2016 : AlphaGo - 深度RL里程碑
2017 : Transformer - 注意力机制革命
section 大模型智能体时代 (2020-2025)
2022 : ChatGPT - LLM对话智能体
2023 : AutoGPT/BabyAGI - 自主智能体
2023 : GPT-4 Function Calling
2024 : Claude Code - 编程智能体
2025 : OpenAI Operator - 浏览器智能体
1. 理论奠基期 (1950-1966)
1.1 图灵测试 (1950)
Alan Turing 在论文《Computing Machinery and Intelligence》中提出了著名的"模仿游戏"(Imitation Game),奠定了智能体研究的哲学基础。
核心贡献:
- 提出判定机器智能的操作性标准
- 将"机器能否思考"转化为可检验的行为问题
- 预见了对话式智能体的核心挑战
1.2 达特茅斯会议 (1956)
McCarthy、Minsky、Shannon、Rochester 等人组织的这次会议,正式确立了"人工智能"作为一个学科的地位。
核心贡献:
- 定义了 AI 研究的基本目标和方法论
- 催生了符号主义(Symbolic AI)的研究路线
- 为后续智能体研究提供了学科框架
1.3 ELIZA (1966)
Joseph Weizenbaum 在 MIT 开发的 ELIZA 是第一个能与人类进行自然语言对话的程序。
核心贡献:
- 证明了简单的模式匹配即可产生"智能"的幻觉
- 首次揭示了人类对机器的拟人化倾向(ELIZA效应)
- 虽然没有真正的"理解",但开创了对话智能体的先河
2. 符号主义高峰期 (1969-1990)
2.1 Shakey (1969)
SRI International 开发的 Shakey 是第一个能够自主推理和规划行动的通用移动机器人。
核心贡献:
- 集成了感知、规划与执行的完整智能体循环
- 使用 STRIPS(Stanford Research Institute Problem Solver)作为规划器
- 证明了符号推理可以驱动物理世界的行动
2.2 SHRDLU (1971)
Terry Winograd 的 SHRDLU 能够理解自然语言指令并操作虚拟积木世界。
核心贡献:
- 展示了语言理解与行动执行的结合
- 证明了受限领域内的"深度理解"是可能的
- 揭示了开放世界理解的根本困难
2.3 专家系统时代 (1970s-1980s)
MYCIN(医疗诊断)、DENDRAL(化学分析)、R1/XCON(计算机配置)等专家系统证明了知识驱动的智能体在特定领域的实用价值。
核心贡献:
- 引入了知识库(Knowledge Base)+ 推理引擎(Inference Engine)的架构模式
- 不确定性推理:MYCIN 引入了确定性因子(Certainty Factor)
- 首次实现了 AI 系统的商业化部署
2.4 BDI 模型 (1987)
Bratman 提出的信念-愿望-意图(Belief-Desire-Intention)模型为理性智能体提供了严格的哲学和计算基础。
核心贡献:
- 形式化定义了智能体的心理状态
- 提供了从信念到行动的理性决策框架
- 催生了 PRS、AgentSpeak(L) 等实现
交叉引用
BDI 模型的详细形式化描述见 BDI模型。
2.5 Brooks 包容架构 (1986)
Rodney Brooks 提出的包容架构(Subsumption Architecture)挑战了符号主义的主导地位。
核心贡献:
- 提出"世界是它自己最好的模型"——无需内部表征
- 行为层叠加:低层行为优先,高层行为可抑制低层
- 开创了行为主义(Behavior-based)智能体研究
3. 多智能体与互联网时代 (1994-2010)
3.1 Softbots (1994)
Etzioni 和 Weld 提出了"软件智能体"(Softbot)的概念——在数字环境中自主执行任务的程序。
核心贡献:
- 将智能体概念从物理世界拓展到数字世界
- 预见了后来的网页爬虫、自动化脚本、RPA
- 提出了软件智能体的安全和信任问题
3.2 智能体通信语言 (1995-2002)
KQML(Knowledge Query and Manipulation Language)和 FIPA ACL 为智能体间的通信提供了标准化协议。
核心贡献:
- 定义了言语行为(Speech Acts)在智能体通信中的应用
- 制定了消息格式、交互协议和本体(Ontology)标准
- 为多智能体系统的互操作奠定了基础
3.3 AAMAS 会议 (2002)
International Conference on Autonomous Agents and Multiagent Systems 的成立标志着多智能体研究成为独立领域。
4. 深度学习与语音助手时代 (2011-2020)
4.1 Siri (2011)
Apple 的 Siri 将智能助手带入了主流消费市场。
核心贡献:
- 集成了语音识别、自然语言理解、任务执行的完整管道
- 证明了智能体可以作为大众消费产品
- 开启了 Alexa (2014)、Google Assistant (2016)、Cortana (2014) 的竞争
4.2 AlphaGo (2016)
DeepMind 的 AlphaGo 在围棋领域击败了世界冠军李世石。
核心贡献:
- 证明了深度强化学习在复杂决策任务中的超人能力
- 结合了蒙特卡洛树搜索(MCTS)与深度神经网络
- 启发了后续将 RL 应用于更广泛智能体任务的研究
4.3 Transformer (2017)
Vaswani 等人提出的 Transformer 架构彻底改变了 NLP,为后来的 LLM 智能体奠定了技术基础。
5. 大语言模型智能体时代 (2022-2025)
5.1 ChatGPT (2022)
OpenAI 的 ChatGPT 展示了 LLM 作为对话智能体的强大能力。
核心贡献:
- 基于 RLHF 对齐的 LLM 首次实现了流畅、有用的多轮对话
- 将 AI 智能体从研究实验室带入了数亿用户
- 催生了 LLM 智能体研究的爆发式增长
5.2 AutoGPT 与 BabyAGI (2023年3月)
Significant Gravitas 的 AutoGPT 和 Yohei Nakajima 的 BabyAGI 是首批自主 LLM 智能体。
核心贡献:
- 证明了 LLM 可以自主分解任务、规划步骤并执行
- 引入了任务队列、记忆存储、自我反思等机制
- 虽然实际可靠性有限,但激发了整个领域的想象力
5.3 GPT-4 Function Calling (2023年6月)
OpenAI 为 GPT-4 引入了结构化的函数调用能力。
核心贡献:
- 将工具使用从 prompt engineering 提升为原生能力
- 标准化了 LLM 与外部工具的交互接口
- 为后续的智能体框架(LangChain、LangGraph)提供了基础设施
5.4 Claude Code (2024)
Anthropic 推出的 Claude Code 是首批生产级编程智能体之一。
核心贡献:
- 证明了 LLM 智能体可以在真实软件工程任务中可靠工作
- 集成了代码理解、文件操作、测试执行的完整工作流
- 展示了 Human-in-the-Loop 的交互模式
5.5 OpenAI Operator (2025年1月)
OpenAI 推出了能够自主浏览网页并完成任务的 Operator 智能体。
核心贡献:
- 首个商业化的浏览器自主智能体
- 能够处理网页导航、表单填写、购物等复杂任务
- 推动了智能体从"对话"到"行动"的范式转变
技术演进的核心主线
| 时代 | 核心范式 | 知识来源 | 推理方式 | 行动能力 |
|---|---|---|---|---|
| 符号主义 (1950-1990) | 规则+逻辑 | 人工编码 | 演绎推理 | 受限环境 |
| 行为主义 (1986-2000) | 反应式 | 环境交互 | 无显式推理 | 物理世界 |
| 统计学习 (2000-2020) | 数据驱动 | 标注数据 | 模式匹配 | 分类/预测 |
| LLM时代 (2020-) | 语言驱动 | 预训练语料 | 类比推理+CoT | 工具调用+自主行动 |
关键观察
- 从专用到通用:智能体从特定任务(MYCIN的医疗诊断)走向通用能力(GPT-4的多领域任务)
- 从显式到隐式知识:从人工编码规则到从数据中自动学习
- 从被动到自主:从用户驱动的问答到智能体主动规划和执行
- 从单一到多模态:从纯文本到整合视觉、语音、代码等多种模态
- 从封闭到开放环境:从虚拟积木世界到真实网页、文件系统和物理世界
参考文献
- Turing, A.M. (1950). Computing Machinery and Intelligence. Mind, 59(236), 433-460.
- Weizenbaum, J. (1966). ELIZA - A Computer Program For the Study of Natural Language Communication Between Man And Machine. CACM, 9(1), 36-45.
- Nilsson, N.J. (1984). Shakey the Robot. SRI International Technical Note 323.
- Bratman, M.E. (1987). Intention, Plans, and Practical Reason. Harvard University Press.
- Brooks, R.A. (1986). A Robust Layered Control System For a Mobile Robot. IEEE Journal on Robotics and Automation, 2(1), 14-23.
- Etzioni, O. & Weld, D. (1994). A Softbot-based Interface to the Internet. CACM, 37(7), 72-76.
- Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS 2017.
- Significant Gravitas. (2023). AutoGPT. GitHub Repository.
- OpenAI. (2023). GPT-4 Technical Report. arXiv:2303.08774.