AI 发展简史
概述
人工智能的历史是一部充满希望与失望交替的编年史。从 1956 年达特茅斯会议的诞生到 2022 年 ChatGPT 引发的全球热潮,AI 经历了两次"寒冬"和多次复兴。
1. 时间线
timeline
title AI 发展时间线
section 萌芽 (1940s-1955)
1943 : McCulloch-Pitts 神经元模型
1950 : 图灵测试提出
section 黄金时代 (1956-1974)
1956 : 达特茅斯会议
1958 : 感知机 (Perceptron)
1966 : ELIZA 聊天程序
section 第一次寒冬 (1974-1980)
1969 : Minsky《感知机》批判
section 专家系统 (1980-1987)
1980 : XCON 专家系统
1986 : 反向传播复兴
section 第二次寒冬 (1987-1993)
1987 : 专家系统市场崩溃
section 稳步发展 (1993-2011)
1997 : 深蓝击败卡斯帕罗夫
2006 : 深度信念网络
section 深度学习爆发 (2012-2017)
2012 : AlexNet 赢得 ImageNet
2014 : GAN 提出
2016 : AlphaGo 击败李世石
2017 : Transformer 论文
section 大模型时代 (2018-至今)
2018 : BERT / GPT
2020 : GPT-3
2022 : ChatGPT / Diffusion
2023 : GPT-4 / 多模态
2. 萌芽期(1940s-1955)
关键事件
- 1943 年:McCulloch 和 Pitts 提出人工神经元的数学模型——第一个计算智能的形式化描述
- 1950 年:图灵发表 "Computing Machinery and Intelligence",提出图灵测试
- 1951 年:Marvin Minsky 构建第一个神经网络硬件 SNARC
- 1955 年:Arthur Samuel 编写跳棋程序,首次使用"机器学习"一词
3. 黄金时代(1956-1974)
3.1 达特茅斯会议(1956)
"人工智能"一词在此诞生。John McCarthy、Marvin Minsky、Allen Newell、Herbert Simon 等人聚集,提出了一个雄心勃勃的目标:
"在一个夏天里,可以在让机器使用语言、形成抽象和概念方面取得重大进展。"
3.2 早期成就
| 年份 | 成就 | 意义 |
|---|---|---|
| 1956 | Logic Theorist | 第一个 AI 程序,证明数学定理 |
| 1958 | Perceptron | 第一个可学习的神经网络 |
| 1961 | Unimate 机器人 | 第一个工业机器人 |
| 1964 | STUDENT | 求解代数文字题 |
| 1966 | ELIZA | 第一个聊天程序 |
| 1969 | Shakey | 第一个通用移动机器人 |
3.3 乐观与高期望
这一时期充满了极度乐观的预测:
- Simon(1957):"十年内计算机将成为国际象棋冠军"
- Minsky(1967):"一代人之内,创建 AI 的问题将基本解决"
4. 第一次 AI 寒冬(1974-1980)
原因
- 感知机局限:Minsky 和 Papert(1969)证明单层感知机无法学习 XOR,打击了神经网络研究
- 组合爆炸:搜索空间随问题规模指数增长
- 常识问题:难以表示和推理常识知识
- Lighthill 报告(1973):英国政府对 AI 研究的负面评估
- 资金削减:美国 DARPA 和英国政府大幅减少 AI 资助
5. 专家系统时代(1980-1987)
5.1 专家系统的兴起
| 系统 | 年份 | 领域 | 成就 |
|---|---|---|---|
| MYCIN | 1976 | 医疗诊断 | 诊断细菌感染 |
| XCON/R1 | 1980 | 计算机配置 | 为 DEC 节省 4000 万美元/年 |
| DENDRAL | 1981 | 化学分析 | 推断分子结构 |
5.2 知识工程
- 知识获取成为核心瓶颈
- 规则数量膨胀(XCON 有 10,000+ 条规则)
- 维护困难
5.3 反向传播复兴(1986)
Rumelhart、Hinton 和 Williams 重新推广反向传播算法,证明多层网络可以学习复杂模式。虽然重要,但当时计算能力和数据不足,未能引发革命。
6. 第二次 AI 寒冬(1987-1993)
原因
- 专家系统的局限:维护成本高、适用范围窄、无法学习
- LISP 机器市场崩溃:专用硬件被通用 PC 取代
- 第五代计算机失败:日本投入巨资的项目未达预期
- 资金再次枯竭
7. 稳步发展(1993-2011)
这一时期 AI 转向更务实的方法:
| 年份 | 事件 | 意义 |
|---|---|---|
| 1997 | 深蓝击败卡斯帕罗夫 | 搜索 + 评估函数的胜利 |
| 1998 | LeNet-5 | CNN 用于手写数字识别 |
| 2001 | 随机森林 | 集成学习方法 |
| 2006 | 深度信念网络(Hinton) | 深度学习的火种 |
| 2009 | ImageNet 数据集 | 大规模视觉基准 |
| 2011 | Watson 赢得 Jeopardy! | NLP + 知识检索 |
| 2011 | Siri 发布 | AI 进入消费市场 |
关键转变:
- 统计方法取代符号方法成为主流
- 支持向量机(SVM)成为标准工具
- 概率图模型(贝叶斯网络、HMM)广泛应用
- 互联网带来海量数据
8. 深度学习革命(2012-2017)
8.1 AlexNet(2012)
- Alex Krizhevsky 的深度 CNN 在 ImageNet 上将错误率从 26% 降到 16%
- GPU 加速训练、ReLU 激活、Dropout 正则化
- 标志着深度学习时代的开始
8.2 关键突破
| 年份 | 突破 | 影响 |
|---|---|---|
| 2013 | Word2Vec | 词嵌入,NLP 的基础 |
| 2014 | GAN(Goodfellow) | 生成式模型的里程碑 |
| 2014 | Seq2Seq + Attention | 机器翻译的突破 |
| 2015 | ResNet | 残差连接,训练超深网络 |
| 2015 | Batch Normalization | 加速训练的关键技术 |
| 2016 | AlphaGo 击败李世石 | 深度强化学习的标志性成就 |
| 2017 | Transformer | "Attention Is All You Need",改变一切 |
8.3 推动因素
- 算力:GPU(NVIDIA CUDA)、TPU 的发展
- 数据:互联网、智能手机带来的海量数据
- 算法:反向传播 + 新架构(CNN、RNN、Attention)
- 开源:TensorFlow、PyTorch 降低入门门槛
9. 大模型时代(2018-至今)
9.1 预训练语言模型
| 模型 | 年份 | 参数量 | 创新 |
|---|---|---|---|
| BERT | 2018 | 340M | 双向预训练 + 微调范式 |
| GPT-2 | 2019 | 1.5B | "太危险不能发布" |
| GPT-3 | 2020 | 175B | In-context learning |
| PaLM | 2022 | 540B | 链式推理(Chain-of-Thought) |
| GPT-4 | 2023 | ~1.8T(MoE) | 多模态、推理能力飞跃 |
9.2 ChatGPT 时刻(2022.11)
- 2 个月内用户破亿
- RLHF(人类反馈的强化学习)使模型遵循指令
- AI 从学术走向大众
9.3 多模态与扩散模型(2023-)
- 图像生成:DALL-E 2、Stable Diffusion、Midjourney
- 多模态 LLM:GPT-4V、Gemini、Claude(视觉理解)
- 视频生成:Sora、Runway
- AI Agent:AutoGPT、Claude Computer Use
9.4 开放问题
- Scaling Law 是否会持续?
- 如何实现真正的推理能力?
- 对齐(Alignment)问题
- 计算成本与能耗
- AGI 的可行路径
10. 历史教训
| 教训 | 说明 |
|---|---|
| 避免过度炒作 | 不切实际的期望导致寒冬 |
| 数据和算力是关键 | 算法突破往往需要等待硬件和数据 |
| 跨学科融合 | AI 进步来自数学、神经科学、工程的交汇 |
| 实用主义 | 解决具体问题比追求通用智能更有效 |
| 安全与伦理 | 能力越强,责任越大 |
参考资料
- "Artificial Intelligence: A Modern Approach" - Russell & Norvig
- "The Quest for Artificial Intelligence" - Nils Nilsson
- "AI: A Modern Approach" 第 1 章历史概述