跳转至

强化学习里程碑

概述

强化学习从理论萌芽到工业落地,经历了数十年的发展。本文梳理 RL 历史上的关键里程碑事件,展示从 TD-Gammon 到 o1 的技术演进脉络。


时间线总览

timeline
    title 强化学习里程碑 (1992-2024)
    1992 : TD-Gammon
         : 西洋双陆棋
    2013 : DQN
         : Atari 游戏
    2016 : AlphaGo
         : 围棋
    2017 : AlphaZero
         : 棋类通用
    2019 : OpenAI Five
         : Dota 2
    2019 : AlphaStar
         : 星际争霸 II
    2020 : MuZero
         : 无需规则
    2022 : ChatGPT
         : RLHF
    2023 : RT-2
         : 机器人
    2024 : o1
         : 推理增强

1. TD-Gammon (1992)

成就

Gerald Tesauro 在 IBM 开发的 TD-Gammon 是第一个通过自我对弈达到人类专家水平的 RL 系统,在西洋双陆棋 (Backgammon) 中表现卓越。

核心算法

  • TD(\(\lambda\)) 时序差分学习
  • 神经网络作为价值函数逼近器(3层前馈网络,约160个隐藏单元)
  • 自我对弈生成训练数据(约150万局)

关键公式

\[V(s_t) \leftarrow V(s_t) + \alpha \sum_{k=t}^{T} \lambda^{k-t} \delta_k\]

其中 \(\delta_k = r_{k+1} + \gamma V(s_{k+1}) - V(s_k)\) 为 TD 误差。

历史意义

  • 首次证明 RL + 神经网络在复杂博弈中的可行性
  • 启发了后续深度RL研究的方向
  • 自我对弈训练范式的先驱

2. DQN: 深度Q网络 (2013/2015)

成就

DeepMind 的 DQN 用单一算法和网络结构在 49 个 Atari 2600 游戏中达到或超越人类水平,论文发表在 Nature

核心算法

  • 深度 Q 网络: 卷积神经网络近似 \(Q(s,a;\theta)\)
  • 经验回放 (Experience Replay): 打破样本相关性
  • 目标网络 (Target Network): 稳定训练

关键创新

\[\mathcal{L}(\theta) = \mathbb{E}_{(s,a,r,s') \sim \mathcal{D}} \left[ \left( r + \gamma \max_{a'} Q(s',a';\theta^-) - Q(s,a;\theta) \right)^2 \right]\]

其中 \(\theta^-\) 是目标网络参数,定期从 \(\theta\) 复制。

历史意义

  • 开创深度强化学习时代
  • 证明端到端像素到动作的学习是可行的
  • 引发学术界和工业界对深度RL的广泛关注
  • 后续衍生: Double DQN, Dueling DQN, Prioritized ER, Rainbow

3. AlphaGo (2016)

成就

DeepMind 的 AlphaGo 以 4:1 击败世界围棋冠军李世石,这是 AI 在围棋领域的历史性突破。围棋的状态空间约为 \(10^{170}\),远超此前所有棋类 AI 的处理能力。

核心算法

  • 策略网络 \(p_\sigma(a|s)\): 从人类专家棋谱监督学习
  • 价值网络 \(v_\theta(s)\): 评估局面胜率
  • 蒙特卡洛树搜索 (MCTS): 结合策略和价值网络的搜索
  • 自我对弈 RL: 策略梯度进一步提升

系统架构

AlphaGo 系统:
  ├── SL Policy Network (人类棋谱训练)
  ├── RL Policy Network (自我对弈强化)
  ├── Value Network (局面评估)
  └── MCTS (搜索与决策)

历史意义

  • AI 在最复杂棋类游戏中超越人类
  • 展示了深度学习 + RL + 搜索的强大组合
  • 引发全球对 AI 能力的重新认知

4. AlphaZero (2017)

成就

AlphaZero 不使用任何人类知识,仅通过自我对弈,在围棋、国际象棋和将棋中全部超越专门化的顶级 AI 系统。

核心改进

  • 去除人类知识: 无监督学习阶段,纯 RL
  • 统一架构: 同一算法解决三种不同棋类
  • 简化 MCTS: 用单一神经网络替代 rollout

关键结果

游戏 对手 结果 训练时间
围棋 AlphaGo Lee 100:0 34小时
国际象棋 Stockfish 155.5:44.5 9小时
将棋 Elmo 91.2:8.8 12小时

历史意义

  • 证明纯自我对弈可以超越人类知识
  • "Tabula rasa"学习范式的成功
  • 算法通用性的重要验证

5. OpenAI Five (2019)

成就

OpenAI Five 在 Dota 2 完整5v5比赛中击败世界冠军 OG 战队。Dota 2 的复杂度远超棋类:实时决策、不完全信息、长时间跨度、团队协作。

核心算法

  • 大规模 PPO: 每天消耗约 800 petaflop-days 的计算
  • 自我对弈: 对手池 + 历史版本
  • 长时间跨度: 约45分钟/局,约 20,000 步决策
  • 分布式训练: 数千个 GPU 并行

技术细节

  • 观测空间: ~20,000 维向量(非像素)
  • 动作空间: ~170,000 个可能动作
  • LSTM 作为策略网络处理时序信息
  • 手术精细化的奖励塑形 (Reward Shaping)

历史意义

  • RL 首次在复杂实时策略游戏中达到顶尖水平
  • 展示了大规模计算在 RL 中的威力
  • 多智能体协作的突破

6. AlphaStar (2019)

成就

DeepMind 的 AlphaStar 在星际争霸 II 中达到 Grandmaster 级别(前 0.2% 玩家),使用完整游戏界面,无任何简化。

核心算法

  • 多智能体训练联盟 (League Training): 维护大量策略组成的联盟
  • 模仿学习 + RL: 先从人类回放学习,再通过自我对弈提升
  • Transformer 架构: 处理游戏中的多实体注意力
  • 自回归策略: 结构化动作空间的处理

训练联盟架构

League Training:
  ├── Main Agents (主力训练)
  ├── Main Exploiters (针对主力的反策略)
  └── League Exploiters (针对全联盟的反策略)

历史意义

  • 不完全信息实时策略游戏的突破
  • League Training 成为多智能体训练的经典范式
  • 展示了 RL 处理极端复杂决策空间的能力

7. MuZero (2020)

成就

MuZero 不需要知道游戏规则,通过学习环境模型,在围棋、象棋、将棋和 Atari 中均达到超人表现。

核心算法

MuZero 学习三个函数:

  • 表示函数 \(h_\theta\): 将观测映射到隐状态 \(s = h_\theta(o)\)
  • 动力学函数 \(g_\theta\): 预测下一隐状态和奖励 \((r, s') = g_\theta(s, a)\)
  • 预测函数 \(f_\theta\): 在隐状态上预测策略和价值 \((p, v) = f_\theta(s)\)

与 AlphaZero 的对比

维度 AlphaZero MuZero
环境规则 需要完美模拟器 不需要
模型 无(用模拟器) 学习的隐空间模型
适用范围 完美信息博弈 更广泛(含 Atari)
MCTS 在真实状态上搜索 在隐空间搜索

历史意义

  • 模型基础 RL 的重要里程碑
  • 证明学习的世界模型可以替代完美模拟器
  • 统一了模型基础和模型无关方法

8. RLHF 与 ChatGPT (2022)

成就

OpenAI 的 ChatGPT 通过 RLHF (Reinforcement Learning from Human Feedback) 将大语言模型的输出与人类偏好对齐,掀起了 AI 革命。

核心算法

RLHF 三阶段:

  1. SFT: 监督微调基座模型
  2. 奖励建模: 训练奖励模型 \(R_\phi(x,y)\)
  3. PPO 优化:
\[\max_\theta \mathbb{E}_{y \sim \pi_\theta(\cdot|x)} \left[ R_\phi(x,y) \right] - \beta D_{KL}(\pi_\theta \| \pi_{ref})\]

关键论文

  • InstructGPT (Ouyang et al., 2022): RLHF 方法论
  • Constitutional AI (Anthropic, 2022): 基于原则的对齐
  • DPO (Rafailov et al., 2023): 无需显式奖励模型的替代方案

历史意义

  • RL 最广泛的实际应用
  • 从学术研究到亿级用户产品
  • 开启了 AI 对齐 (Alignment) 研究的新时代
  • 证明 RL 可以有效控制生成模型的行为

9. RT-2: 机器人 Transformer (2023)

成就

Google DeepMind 的 RT-2 将视觉-语言模型 (VLM) 与机器人控制结合,实现了从自然语言指令到机器人动作的端到端学习。

核心算法

  • 视觉-语言-动作模型 (VLA): 将机器人动作表示为文本 token
  • 大规模预训练: 利用互联网规模的视觉语言数据
  • 策略微调: 在机器人操控数据上微调

关键创新

输入: 视觉观测 + 语言指令
  → VLM 编码器 (PaLM-E / PaLI-X)
  → 动作 token 解码
输出: 机器人末端执行器动作

历史意义

  • 基础模型 (Foundation Model) 与机器人 RL 的融合
  • 展示了语言理解带来的泛化能力
  • 具身智能 (Embodied AI) 的重要进展

10. o1: 推理增强 (2024)

成就

OpenAI 的 o1 模型通过强化学习训练模型的推理链 (Chain of Thought),在数学、编程和科学推理任务上取得了巨大突破。

核心方法

  • 过程奖励模型 (PRM): 对推理步骤而非最终答案给予奖励
  • 推理时计算扩展 (Test-time Compute Scaling): 模型在推理时可以"思考更久"
  • RL 训练推理能力: 用强化学习优化思维链的质量

关键思想

\[\text{传统 Scaling: } \text{性能} \propto \text{训练计算量}\]
\[\text{o1 Scaling: } \text{性能} \propto \text{训练计算量} \times \text{推理计算量}\]

后续发展

  • DeepSeek-R1: 开源推理模型,使用 GRPO 训练
  • QwQ, Gemini Thinking: 各家推理增强模型
  • 推理时搜索: MCTS + LLM 的融合探索

历史意义

  • 开创了推理时计算扩展的新范式
  • RL 从游戏/机器人扩展到认知推理
  • 连接了经典搜索/规划与现代 LLM

里程碑总结

年份 里程碑 核心算法 关键意义
1992 TD-Gammon TD(λ) + NN RL+NN可行性证明
2013 DQN DQN + Experience Replay 开创深度RL时代
2016 AlphaGo MCTS + Policy/Value Net AI超越人类围棋
2017 AlphaZero Self-play + MCTS 无人类知识的通用棋类AI
2019 OpenAI Five 大规模PPO 复杂实时策略游戏
2019 AlphaStar League Training 不完全信息策略游戏
2020 MuZero 学习的世界模型 无需环境规则
2022 ChatGPT RLHF (PPO) RL最广泛应用
2023 RT-2 VLA模型 基础模型+机器人
2024 o1 RL训练推理链 推理时计算扩展

发展趋势

通过这些里程碑,可以观察到几个清晰的趋势:

  1. 从简单到复杂环境: 棋盘游戏 → 视频游戏 → 实时策略 → 开放世界
  2. 从专用到通用: 单一任务 → 多任务 → 通用能力
  3. 从虚拟到现实: 模拟环境 → 真实机器人
  4. 从游戏到认知: 下棋/玩游戏 → 语言对齐 → 推理增强
  5. 规模效应: 更大的计算量持续带来性能提升

参考资料

  • Tesauro, G. (1995). Temporal Difference Learning and TD-Gammon
  • Mnih, V. et al. (2015). Human-level control through deep reinforcement learning. Nature
  • Silver, D. et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature
  • Silver, D. et al. (2017). Mastering Chess and Shogi by Self-Play. Science
  • Berner, C. et al. (2019). Dota 2 with Large Scale Deep Reinforcement Learning
  • Vinyals, O. et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature
  • Schrittwieser, J. et al. (2020). Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model. Nature
  • Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback
  • Brohan, A. et al. (2023). RT-2: Vision-Language-Action Models

延伸阅读


评论 #