强化学习里程碑

概述

强化学习从理论萌芽到工业落地,经历了数十年的发展。本文梳理 RL 历史上的关键里程碑事件,展示从 TD-Gammon 到 o1 的技术演进脉络。

时间线总览

timeline
    title 强化学习里程碑 (1992-2024)
    1992 : TD-Gammon
         : 西洋双陆棋
    2013 : DQN
         : Atari 游戏
    2016 : AlphaGo
         : 围棋
    2017 : AlphaZero
         : 棋类通用
    2019 : OpenAI Five
         : Dota 2
    2019 : AlphaStar
         : 星际争霸 II
    2020 : MuZero
         : 无需规则
    2022 : ChatGPT
         : RLHF
    2023 : RT-2
         : 机器人
    2024 : o1
         : 推理增强

1. TD-Gammon (1992)

成就

Gerald Tesauro 在 IBM 开发的 TD-Gammon 是第一个通过自我对弈达到人类专家水平的 RL 系统,在西洋双陆棋 (Backgammon) 中表现卓越。

核心算法

TD(\(\lambda\)) 时序差分学习
神经网络作为价值函数逼近器(3层前馈网络,约160个隐藏单元)
自我对弈生成训练数据(约150万局)

关键公式

\[V(s_t) \leftarrow V(s_t) + \alpha \sum_{k=t}^{T} \lambda^{k-t} \delta_k\]

其中 \(\delta_k = r_{k+1} + \gamma V(s_{k+1}) - V(s_k)\) 为 TD 误差。

历史意义

首次证明 RL + 神经网络在复杂博弈中的可行性
启发了后续深度RL研究的方向
自我对弈训练范式的先驱

2. DQN: 深度Q网络 (2013/2015)

成就

DeepMind 的 DQN 用单一算法和网络结构在 49 个 Atari 2600 游戏中达到或超越人类水平,论文发表在 Nature。

核心算法

深度 Q 网络: 卷积神经网络近似 \(Q(s,a;\theta)\)
经验回放 (Experience Replay): 打破样本相关性
目标网络 (Target Network): 稳定训练

关键创新

\[\mathcal{L}(\theta) = \mathbb{E}_{(s,a,r,s') \sim \mathcal{D}} \left[ \left( r + \gamma \max_{a'} Q(s',a';\theta^-) - Q(s,a;\theta) \right)^2 \right]\]

其中 \(\theta^-\) 是目标网络参数,定期从 \(\theta\) 复制。

历史意义

开创深度强化学习时代
证明端到端像素到动作的学习是可行的
引发学术界和工业界对深度RL的广泛关注
后续衍生: Double DQN, Dueling DQN, Prioritized ER, Rainbow

3. AlphaGo (2016)

成就

DeepMind 的 AlphaGo 以 4:1 击败世界围棋冠军李世石,这是 AI 在围棋领域的历史性突破。围棋的状态空间约为 \(10^{170}\),远超此前所有棋类 AI 的处理能力。

核心算法

策略网络 \(p_\sigma(a|s)\): 从人类专家棋谱监督学习
价值网络 \(v_\theta(s)\): 评估局面胜率
蒙特卡洛树搜索 (MCTS): 结合策略和价值网络的搜索
自我对弈 RL: 策略梯度进一步提升

系统架构

AlphaGo 系统:
  ├── SL Policy Network (人类棋谱训练)
  ├── RL Policy Network (自我对弈强化)
  ├── Value Network (局面评估)
  └── MCTS (搜索与决策)

历史意义

AI 在最复杂棋类游戏中超越人类
展示了深度学习 + RL + 搜索的强大组合
引发全球对 AI 能力的重新认知

4. AlphaZero (2017)

成就

AlphaZero 不使用任何人类知识,仅通过自我对弈,在围棋、国际象棋和将棋中全部超越专门化的顶级 AI 系统。

核心改进

去除人类知识: 无监督学习阶段,纯 RL
统一架构: 同一算法解决三种不同棋类
简化 MCTS: 用单一神经网络替代 rollout

关键结果

游戏	对手	结果	训练时间
围棋	AlphaGo Lee	100:0	34小时
国际象棋	Stockfish	155.5:44.5	9小时
将棋	Elmo	91.2:8.8	12小时

历史意义

证明纯自我对弈可以超越人类知识
"Tabula rasa"学习范式的成功
算法通用性的重要验证

5. OpenAI Five (2019)

成就

OpenAI Five 在 Dota 2 完整5v5比赛中击败世界冠军 OG 战队。Dota 2 的复杂度远超棋类:实时决策、不完全信息、长时间跨度、团队协作。

核心算法

大规模 PPO: 每天消耗约 800 petaflop-days 的计算
自我对弈: 对手池 + 历史版本
长时间跨度: 约45分钟/局,约 20,000 步决策
分布式训练: 数千个 GPU 并行

技术细节

观测空间: ~20,000 维向量(非像素)
动作空间: ~170,000 个可能动作
LSTM 作为策略网络处理时序信息
手术精细化的奖励塑形 (Reward Shaping)

历史意义

RL 首次在复杂实时策略游戏中达到顶尖水平
展示了大规模计算在 RL 中的威力
多智能体协作的突破

6. AlphaStar (2019)

成就

DeepMind 的 AlphaStar 在星际争霸 II 中达到 Grandmaster 级别(前 0.2% 玩家),使用完整游戏界面,无任何简化。

核心算法

多智能体训练联盟 (League Training): 维护大量策略组成的联盟
模仿学习 + RL: 先从人类回放学习,再通过自我对弈提升
Transformer 架构: 处理游戏中的多实体注意力
自回归策略: 结构化动作空间的处理

训练联盟架构

League Training:
  ├── Main Agents (主力训练)
  ├── Main Exploiters (针对主力的反策略)
  └── League Exploiters (针对全联盟的反策略)

历史意义

不完全信息实时策略游戏的突破
League Training 成为多智能体训练的经典范式
展示了 RL 处理极端复杂决策空间的能力

7. MuZero (2020)

成就

MuZero 不需要知道游戏规则,通过学习环境模型,在围棋、象棋、将棋和 Atari 中均达到超人表现。

核心算法

MuZero 学习三个函数:

表示函数 \(h_\theta\): 将观测映射到隐状态 \(s = h_\theta(o)\)
动力学函数 \(g_\theta\): 预测下一隐状态和奖励 \((r, s') = g_\theta(s, a)\)
预测函数 \(f_\theta\): 在隐状态上预测策略和价值 \((p, v) = f_\theta(s)\)

与 AlphaZero 的对比

维度	AlphaZero	MuZero
环境规则	需要完美模拟器	不需要
模型	无(用模拟器)	学习的隐空间模型
适用范围	完美信息博弈	更广泛(含 Atari)
MCTS	在真实状态上搜索	在隐空间搜索

历史意义

模型基础 RL 的重要里程碑
证明学习的世界模型可以替代完美模拟器
统一了模型基础和模型无关方法

8. RLHF 与 ChatGPT (2022)

成就

OpenAI 的 ChatGPT 通过 RLHF (Reinforcement Learning from Human Feedback) 将大语言模型的输出与人类偏好对齐,掀起了 AI 革命。

核心算法

RLHF 三阶段:

SFT: 监督微调基座模型
奖励建模: 训练奖励模型 \(R_\phi(x,y)\)
PPO 优化:

\[\max_\theta \mathbb{E}_{y \sim \pi_\theta(\cdot|x)} \left[ R_\phi(x,y) \right] - \beta D_{KL}(\pi_\theta \| \pi_{ref})\]

关键论文

InstructGPT (Ouyang et al., 2022): RLHF 方法论
Constitutional AI (Anthropic, 2022): 基于原则的对齐
DPO (Rafailov et al., 2023): 无需显式奖励模型的替代方案

历史意义

RL 最广泛的实际应用
从学术研究到亿级用户产品
开启了 AI 对齐 (Alignment) 研究的新时代
证明 RL 可以有效控制生成模型的行为

9. RT-2: 机器人 Transformer (2023)

成就

Google DeepMind 的 RT-2 将视觉-语言模型 (VLM) 与机器人控制结合,实现了从自然语言指令到机器人动作的端到端学习。

核心算法

视觉-语言-动作模型 (VLA): 将机器人动作表示为文本 token
大规模预训练: 利用互联网规模的视觉语言数据
策略微调: 在机器人操控数据上微调

关键创新

输入: 视觉观测 + 语言指令
  → VLM 编码器 (PaLM-E / PaLI-X)
  → 动作 token 解码
输出: 机器人末端执行器动作

历史意义

基础模型 (Foundation Model) 与机器人 RL 的融合
展示了语言理解带来的泛化能力
具身智能 (Embodied AI) 的重要进展

10. o1: 推理增强 (2024)

成就

OpenAI 的 o1 模型通过强化学习训练模型的推理链 (Chain of Thought),在数学、编程和科学推理任务上取得了巨大突破。

核心方法

过程奖励模型 (PRM): 对推理步骤而非最终答案给予奖励
推理时计算扩展 (Test-time Compute Scaling): 模型在推理时可以"思考更久"
RL 训练推理能力: 用强化学习优化思维链的质量

关键思想

\[\text{传统 Scaling: } \text{性能} \propto \text{训练计算量}\]

\[\text{o1 Scaling: } \text{性能} \propto \text{训练计算量} \times \text{推理计算量}\]

后续发展

DeepSeek-R1: 开源推理模型,使用 GRPO 训练
QwQ, Gemini Thinking: 各家推理增强模型
推理时搜索: MCTS + LLM 的融合探索

历史意义

开创了推理时计算扩展的新范式
RL 从游戏/机器人扩展到认知推理
连接了经典搜索/规划与现代 LLM

里程碑总结

年份	里程碑	核心算法	关键意义
1992	TD-Gammon	TD(λ) + NN	RL+NN可行性证明
2013	DQN	DQN + Experience Replay	开创深度RL时代
2016	AlphaGo	MCTS + Policy/Value Net	AI超越人类围棋
2017	AlphaZero	Self-play + MCTS	无人类知识的通用棋类AI
2019	OpenAI Five	大规模PPO	复杂实时策略游戏
2019	AlphaStar	League Training	不完全信息策略游戏
2020	MuZero	学习的世界模型	无需环境规则
2022	ChatGPT	RLHF (PPO)	RL最广泛应用
2023	RT-2	VLA模型	基础模型+机器人
2024	o1	RL训练推理链	推理时计算扩展

发展趋势

通过这些里程碑,可以观察到几个清晰的趋势:

从简单到复杂环境: 棋盘游戏 → 视频游戏 → 实时策略 → 开放世界
从专用到通用: 单一任务 → 多任务 → 通用能力
从虚拟到现实: 模拟环境 → 真实机器人
从游戏到认知: 下棋/玩游戏 → 语言对齐 → 推理增强
规模效应: 更大的计算量持续带来性能提升

参考资料

Tesauro, G. (1995). Temporal Difference Learning and TD-Gammon
Mnih, V. et al. (2015). Human-level control through deep reinforcement learning. Nature
Silver, D. et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature
Silver, D. et al. (2017). Mastering Chess and Shogi by Self-Play. Science
Berner, C. et al. (2019). Dota 2 with Large Scale Deep Reinforcement Learning
Vinyals, O. et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature
Schrittwieser, J. et al. (2020). Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model. Nature
Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback
Brohan, A. et al. (2023). RT-2: Vision-Language-Action Models

延伸阅读

强化学习全景 — 方法论全局视图
深度强化学习入门 — DQN详解
PPO 算法 — PPO详解
LLM 后训练中的 RL — RLHF与DPO

强化学习里程碑

概述

时间线总览

1. TD-Gammon (1992)

成就

核心算法

关键公式

历史意义

2. DQN: 深度Q网络 (2013/2015)

成就

核心算法

关键创新

历史意义

3. AlphaGo (2016)

成就

核心算法

系统架构

历史意义

4. AlphaZero (2017)

成就

核心改进

关键结果

历史意义

5. OpenAI Five (2019)

成就

核心算法

技术细节

历史意义

6. AlphaStar (2019)

成就

核心算法

训练联盟架构

历史意义

7. MuZero (2020)

成就

核心算法

与 AlphaZero 的对比

历史意义

8. RLHF 与 ChatGPT (2022)

成就

核心算法

关键论文

历史意义

9. RT-2: 机器人 Transformer (2023)

成就

核心算法

关键创新

历史意义

10. o1: 推理增强 (2024)

成就

核心方法

关键思想

后续发展

历史意义

里程碑总结

发展趋势

参考资料

延伸阅读

评论 #