强化学习里程碑
概述
强化学习从理论萌芽到工业落地,经历了数十年的发展。本文梳理 RL 历史上的关键里程碑事件,展示从 TD-Gammon 到 o1 的技术演进脉络。
时间线总览
timeline
title 强化学习里程碑 (1992-2024)
1992 : TD-Gammon
: 西洋双陆棋
2013 : DQN
: Atari 游戏
2016 : AlphaGo
: 围棋
2017 : AlphaZero
: 棋类通用
2019 : OpenAI Five
: Dota 2
2019 : AlphaStar
: 星际争霸 II
2020 : MuZero
: 无需规则
2022 : ChatGPT
: RLHF
2023 : RT-2
: 机器人
2024 : o1
: 推理增强
1. TD-Gammon (1992)
成就
Gerald Tesauro 在 IBM 开发的 TD-Gammon 是第一个通过自我对弈达到人类专家水平的 RL 系统,在西洋双陆棋 (Backgammon) 中表现卓越。
核心算法
- TD(\(\lambda\)) 时序差分学习
- 神经网络作为价值函数逼近器(3层前馈网络,约160个隐藏单元)
- 自我对弈生成训练数据(约150万局)
关键公式
其中 \(\delta_k = r_{k+1} + \gamma V(s_{k+1}) - V(s_k)\) 为 TD 误差。
历史意义
- 首次证明 RL + 神经网络在复杂博弈中的可行性
- 启发了后续深度RL研究的方向
- 自我对弈训练范式的先驱
2. DQN: 深度Q网络 (2013/2015)
成就
DeepMind 的 DQN 用单一算法和网络结构在 49 个 Atari 2600 游戏中达到或超越人类水平,论文发表在 Nature。
核心算法
- 深度 Q 网络: 卷积神经网络近似 \(Q(s,a;\theta)\)
- 经验回放 (Experience Replay): 打破样本相关性
- 目标网络 (Target Network): 稳定训练
关键创新
其中 \(\theta^-\) 是目标网络参数,定期从 \(\theta\) 复制。
历史意义
- 开创深度强化学习时代
- 证明端到端像素到动作的学习是可行的
- 引发学术界和工业界对深度RL的广泛关注
- 后续衍生: Double DQN, Dueling DQN, Prioritized ER, Rainbow
3. AlphaGo (2016)
成就
DeepMind 的 AlphaGo 以 4:1 击败世界围棋冠军李世石,这是 AI 在围棋领域的历史性突破。围棋的状态空间约为 \(10^{170}\),远超此前所有棋类 AI 的处理能力。
核心算法
- 策略网络 \(p_\sigma(a|s)\): 从人类专家棋谱监督学习
- 价值网络 \(v_\theta(s)\): 评估局面胜率
- 蒙特卡洛树搜索 (MCTS): 结合策略和价值网络的搜索
- 自我对弈 RL: 策略梯度进一步提升
系统架构
AlphaGo 系统:
├── SL Policy Network (人类棋谱训练)
├── RL Policy Network (自我对弈强化)
├── Value Network (局面评估)
└── MCTS (搜索与决策)
历史意义
- AI 在最复杂棋类游戏中超越人类
- 展示了深度学习 + RL + 搜索的强大组合
- 引发全球对 AI 能力的重新认知
4. AlphaZero (2017)
成就
AlphaZero 不使用任何人类知识,仅通过自我对弈,在围棋、国际象棋和将棋中全部超越专门化的顶级 AI 系统。
核心改进
- 去除人类知识: 无监督学习阶段,纯 RL
- 统一架构: 同一算法解决三种不同棋类
- 简化 MCTS: 用单一神经网络替代 rollout
关键结果
| 游戏 | 对手 | 结果 | 训练时间 |
|---|---|---|---|
| 围棋 | AlphaGo Lee | 100:0 | 34小时 |
| 国际象棋 | Stockfish | 155.5:44.5 | 9小时 |
| 将棋 | Elmo | 91.2:8.8 | 12小时 |
历史意义
- 证明纯自我对弈可以超越人类知识
- "Tabula rasa"学习范式的成功
- 算法通用性的重要验证
5. OpenAI Five (2019)
成就
OpenAI Five 在 Dota 2 完整5v5比赛中击败世界冠军 OG 战队。Dota 2 的复杂度远超棋类:实时决策、不完全信息、长时间跨度、团队协作。
核心算法
- 大规模 PPO: 每天消耗约 800 petaflop-days 的计算
- 自我对弈: 对手池 + 历史版本
- 长时间跨度: 约45分钟/局,约 20,000 步决策
- 分布式训练: 数千个 GPU 并行
技术细节
- 观测空间: ~20,000 维向量(非像素)
- 动作空间: ~170,000 个可能动作
- LSTM 作为策略网络处理时序信息
- 手术精细化的奖励塑形 (Reward Shaping)
历史意义
- RL 首次在复杂实时策略游戏中达到顶尖水平
- 展示了大规模计算在 RL 中的威力
- 多智能体协作的突破
6. AlphaStar (2019)
成就
DeepMind 的 AlphaStar 在星际争霸 II 中达到 Grandmaster 级别(前 0.2% 玩家),使用完整游戏界面,无任何简化。
核心算法
- 多智能体训练联盟 (League Training): 维护大量策略组成的联盟
- 模仿学习 + RL: 先从人类回放学习,再通过自我对弈提升
- Transformer 架构: 处理游戏中的多实体注意力
- 自回归策略: 结构化动作空间的处理
训练联盟架构
League Training:
├── Main Agents (主力训练)
├── Main Exploiters (针对主力的反策略)
└── League Exploiters (针对全联盟的反策略)
历史意义
- 不完全信息实时策略游戏的突破
- League Training 成为多智能体训练的经典范式
- 展示了 RL 处理极端复杂决策空间的能力
7. MuZero (2020)
成就
MuZero 不需要知道游戏规则,通过学习环境模型,在围棋、象棋、将棋和 Atari 中均达到超人表现。
核心算法
MuZero 学习三个函数:
- 表示函数 \(h_\theta\): 将观测映射到隐状态 \(s = h_\theta(o)\)
- 动力学函数 \(g_\theta\): 预测下一隐状态和奖励 \((r, s') = g_\theta(s, a)\)
- 预测函数 \(f_\theta\): 在隐状态上预测策略和价值 \((p, v) = f_\theta(s)\)
与 AlphaZero 的对比
| 维度 | AlphaZero | MuZero |
|---|---|---|
| 环境规则 | 需要完美模拟器 | 不需要 |
| 模型 | 无(用模拟器) | 学习的隐空间模型 |
| 适用范围 | 完美信息博弈 | 更广泛(含 Atari) |
| MCTS | 在真实状态上搜索 | 在隐空间搜索 |
历史意义
- 模型基础 RL 的重要里程碑
- 证明学习的世界模型可以替代完美模拟器
- 统一了模型基础和模型无关方法
8. RLHF 与 ChatGPT (2022)
成就
OpenAI 的 ChatGPT 通过 RLHF (Reinforcement Learning from Human Feedback) 将大语言模型的输出与人类偏好对齐,掀起了 AI 革命。
核心算法
RLHF 三阶段:
- SFT: 监督微调基座模型
- 奖励建模: 训练奖励模型 \(R_\phi(x,y)\)
- PPO 优化:
关键论文
- InstructGPT (Ouyang et al., 2022): RLHF 方法论
- Constitutional AI (Anthropic, 2022): 基于原则的对齐
- DPO (Rafailov et al., 2023): 无需显式奖励模型的替代方案
历史意义
- RL 最广泛的实际应用
- 从学术研究到亿级用户产品
- 开启了 AI 对齐 (Alignment) 研究的新时代
- 证明 RL 可以有效控制生成模型的行为
9. RT-2: 机器人 Transformer (2023)
成就
Google DeepMind 的 RT-2 将视觉-语言模型 (VLM) 与机器人控制结合,实现了从自然语言指令到机器人动作的端到端学习。
核心算法
- 视觉-语言-动作模型 (VLA): 将机器人动作表示为文本 token
- 大规模预训练: 利用互联网规模的视觉语言数据
- 策略微调: 在机器人操控数据上微调
关键创新
输入: 视觉观测 + 语言指令
→ VLM 编码器 (PaLM-E / PaLI-X)
→ 动作 token 解码
输出: 机器人末端执行器动作
历史意义
- 基础模型 (Foundation Model) 与机器人 RL 的融合
- 展示了语言理解带来的泛化能力
- 具身智能 (Embodied AI) 的重要进展
10. o1: 推理增强 (2024)
成就
OpenAI 的 o1 模型通过强化学习训练模型的推理链 (Chain of Thought),在数学、编程和科学推理任务上取得了巨大突破。
核心方法
- 过程奖励模型 (PRM): 对推理步骤而非最终答案给予奖励
- 推理时计算扩展 (Test-time Compute Scaling): 模型在推理时可以"思考更久"
- RL 训练推理能力: 用强化学习优化思维链的质量
关键思想
后续发展
- DeepSeek-R1: 开源推理模型,使用 GRPO 训练
- QwQ, Gemini Thinking: 各家推理增强模型
- 推理时搜索: MCTS + LLM 的融合探索
历史意义
- 开创了推理时计算扩展的新范式
- RL 从游戏/机器人扩展到认知推理
- 连接了经典搜索/规划与现代 LLM
里程碑总结
| 年份 | 里程碑 | 核心算法 | 关键意义 |
|---|---|---|---|
| 1992 | TD-Gammon | TD(λ) + NN | RL+NN可行性证明 |
| 2013 | DQN | DQN + Experience Replay | 开创深度RL时代 |
| 2016 | AlphaGo | MCTS + Policy/Value Net | AI超越人类围棋 |
| 2017 | AlphaZero | Self-play + MCTS | 无人类知识的通用棋类AI |
| 2019 | OpenAI Five | 大规模PPO | 复杂实时策略游戏 |
| 2019 | AlphaStar | League Training | 不完全信息策略游戏 |
| 2020 | MuZero | 学习的世界模型 | 无需环境规则 |
| 2022 | ChatGPT | RLHF (PPO) | RL最广泛应用 |
| 2023 | RT-2 | VLA模型 | 基础模型+机器人 |
| 2024 | o1 | RL训练推理链 | 推理时计算扩展 |
发展趋势
通过这些里程碑,可以观察到几个清晰的趋势:
- 从简单到复杂环境: 棋盘游戏 → 视频游戏 → 实时策略 → 开放世界
- 从专用到通用: 单一任务 → 多任务 → 通用能力
- 从虚拟到现实: 模拟环境 → 真实机器人
- 从游戏到认知: 下棋/玩游戏 → 语言对齐 → 推理增强
- 规模效应: 更大的计算量持续带来性能提升
参考资料
- Tesauro, G. (1995). Temporal Difference Learning and TD-Gammon
- Mnih, V. et al. (2015). Human-level control through deep reinforcement learning. Nature
- Silver, D. et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature
- Silver, D. et al. (2017). Mastering Chess and Shogi by Self-Play. Science
- Berner, C. et al. (2019). Dota 2 with Large Scale Deep Reinforcement Learning
- Vinyals, O. et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature
- Schrittwieser, J. et al. (2020). Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model. Nature
- Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback
- Brohan, A. et al. (2023). RT-2: Vision-Language-Action Models
延伸阅读
- 强化学习全景 — 方法论全局视图
- 深度强化学习入门 — DQN详解
- PPO 算法 — PPO详解
- LLM 后训练中的 RL — RLHF与DPO