强化学习全景
概述
强化学习(Reinforcement Learning, RL)是机器学习的三大范式之一,研究智能体如何在与环境的交互中通过试错学习最优行为策略。从 Bellman 在1950年代提出动态规划,到2020年代 RLHF 驱动大语言模型对齐,RL 已经发展为一个庞大而深刻的研究领域。
本文旨在提供一幅强化学习的全景地图,帮助读者理清方法论脉络、算法分类和前沿方向。
1. 马尔可夫决策过程 (MDP)
1.1 基本框架
强化学习的数学基础是 马尔可夫决策过程 (MDP),定义为五元组 \((\mathcal{S}, \mathcal{A}, P, R, \gamma)\):
- \(\mathcal{S}\): 状态空间
- \(\mathcal{A}\): 动作空间
- \(P(s'|s,a)\): 状态转移概率
- \(R(s,a,s')\): 奖励函数
- \(\gamma \in [0,1)\): 折扣因子
1.2 核心目标
智能体的目标是找到最优策略 \(\pi^*\),最大化累积折扣回报的期望:
\[V^\pi(s) = \mathbb{E}_\pi\left[\sum_{t=0}^{\infty} \gamma^t r_t \mid s_0 = s\right]\]
1.3 Bellman 方程
状态价值函数的 Bellman 方程:
\[V^\pi(s) = \sum_a \pi(a|s) \sum_{s'} P(s'|s,a) \left[ R(s,a,s') + \gamma V^\pi(s') \right]\]
动作价值函数的 Bellman 方程:
\[Q^\pi(s,a) = \sum_{s'} P(s'|s,a) \left[ R(s,a,s') + \gamma \sum_{a'} \pi(a'|s') Q^\pi(s',a') \right]\]
最优 Bellman 方程:
\[V^*(s) = \max_a \sum_{s'} P(s'|s,a) \left[ R(s,a,s') + \gamma V^*(s') \right]\]
1.4 MDP 的扩展
| 扩展模型 | 特点 | 应用场景 |
|---|---|---|
| POMDP | 部分可观测 | 机器人导航、对话系统 |
| Dec-POMDP | 分布式部分可观测 | 多智能体协作 |
| CMDP | 带约束的MDP | 安全强化学习 |
| Semi-MDP | 时间抽象 | 层次化强化学习 |
2. 强化学习分类体系
2.1 总体分类树
graph TD
RL[强化学习] --> MF[模型无关<br>Model-Free]
RL --> MB[模型基础<br>Model-Based]
MF --> VB[基于价值<br>Value-Based]
MF --> PG[基于策略<br>Policy-Based]
MF --> AC[演员-评论家<br>Actor-Critic]
VB --> DQN[DQN系列]
VB --> TD[TD Learning]
PG --> REINFORCE[REINFORCE]
PG --> TRPO[TRPO]
PG --> PPO[PPO]
AC --> A2C[A2C/A3C]
AC --> SAC[SAC]
AC --> DDPG[DDPG/TD3]
MB --> Dyna[Dyna架构]
MB --> MBPO[MBPO]
MB --> MuZero[MuZero]
MB --> WorldModel[World Models]
RL --> Offline[离线RL]
RL --> MARL[多智能体RL]
RL --> HRL[层次化RL]
style RL fill:#e1f5fe
style MF fill:#fff3e0
style MB fill:#e8f5e9
2.2 模型无关 vs 模型基础
模型无关方法 (Model-Free)
不需要环境动力学模型,直接从交互经验中学习:
- 基于价值 (Value-Based): 学习价值函数,间接导出策略 - Q-Learning, SARSA, DQN, Double DQN, Dueling DQN, Rainbow
- 基于策略 (Policy-Based): 直接参数化并优化策略 - REINFORCE, TRPO, PPO
- 演员-评论家 (Actor-Critic): 同时学习策略(Actor)和价值函数(Critic) - A2C, A3C, SAC, DDPG, TD3
模型基础方法 (Model-Based)
学习或利用环境模型进行规划:
- 学习动力学模型: Dyna, MBPO, Dreamer
- 规划搜索: AlphaGo, MuZero
- 世界模型: World Models, IRIS
选择指南
- 样本效率优先 → 模型基础方法
- 实现简单、渐近性能优先 → 模型无关方法
- 两者结合 → Dyna 架构
2.3 在线策略 vs 离线策略
| 维度 | 在线策略 (On-Policy) | 离线策略 (Off-Policy) |
|---|---|---|
| 定义 | 行为策略 = 目标策略 | 行为策略 ≠ 目标策略 |
| 数据利用 | 低(用后即弃) | 高(可重用) |
| 稳定性 | 较好 | 需要额外技巧 |
| 代表算法 | SARSA, PPO, A2C | Q-Learning, DQN, SAC |
| 经验回放 | 不使用 | 使用 |
2.4 离线强化学习 (Offline RL)
完全从静态数据集学习,不与环境交互:
- 核心挑战: 分布偏移 (distribution shift)、外推误差
- 代表方法: BCQ, CQL, IQL, Decision Transformer
- 应用场景: 医疗决策、自动驾驶、推荐系统
2.5 单智能体 vs 多智能体
| 维度 | 单智能体 | 多智能体 (MARL) |
|---|---|---|
| 环境 | 静态/随机 | 非平稳(其他智能体也在学习) |
| 目标 | 最大化自身回报 | 合作/竞争/混合 |
| 挑战 | 探索-利用平衡 | 信用分配、通信、可扩展性 |
| 代表 | DQN, PPO, SAC | QMIX, MAPPO, MADDPG |
3. 关键算法地图
3.1 按发展时间线
| 年代 | 算法 | 类别 | 关键贡献 |
|---|---|---|---|
| 1989 | Q-Learning | Value-Based | 离线策略TD控制 |
| 1992 | REINFORCE | Policy Gradient | 策略梯度定理 |
| 2013 | DQN | Deep Value-Based | 深度网络 + 经验回放 |
| 2015 | DDPG | Actor-Critic | 连续动作空间确定性策略 |
| 2015 | TRPO | Policy Gradient | 信赖域优化 |
| 2016 | A3C | Actor-Critic | 异步并行训练 |
| 2017 | PPO | Policy Gradient | 裁剪目标,简单高效 |
| 2018 | SAC | Actor-Critic | 最大熵框架 |
| 2018 | TD3 | Actor-Critic | 双Q裁剪,延迟更新 |
| 2020 | CQL | Offline RL | 保守Q学习 |
| 2021 | Decision Transformer | Offline RL | 序列建模视角 |
3.2 按适用场景
离散动作空间:
├── 简单任务 → Q-Learning / SARSA
├── 高维观测 → DQN / Rainbow
└── 多智能体 → QMIX / VDN
连续动作空间:
├── 确定性策略 → DDPG / TD3
├── 随机策略 → SAC
├── 稳定训练 → PPO / TRPO
└── 多智能体 → MADDPG / MAPPO
特殊场景:
├── 静态数据 → CQL / IQL / Decision Transformer
├── 需要规划 → MuZero / Dreamer
└── LLM对齐 → RLHF (PPO) / DPO / GRPO
4. 深度强化学习的核心组件
4.1 函数逼近
- 价值网络: 用神经网络近似 \(V(s)\) 或 \(Q(s,a)\)
- 策略网络: 用神经网络参数化策略 \(\pi_\theta(a|s)\)
- 模型网络: 用神经网络近似环境动力学 \(P(s'|s,a)\)
4.2 稳定训练的关键技术
| 技术 | 解决的问题 | 使用算法 |
|---|---|---|
| 经验回放 (Experience Replay) | 样本相关性、数据效率 | DQN, DDPG, SAC |
| 目标网络 (Target Network) | 训练不稳定 | DQN, DDPG, TD3 |
| 裁剪 (Clipping) | 过大的策略更新 | PPO |
| 信赖域 (Trust Region) | 策略更新步长控制 | TRPO |
| 熵正则化 (Entropy Regularization) | 过早收敛、探索不足 | SAC, A3C |
| 优先经验回放 (PER) | 样本利用效率 | Rainbow |
4.3 探索策略
- \(\epsilon\)-贪心: 简单有效,适用于离散空间
- Boltzmann 探索: 基于价值的概率探索
- UCB: 上置信界,乐观面对不确定性
- 内在动机: 好奇心驱动 (ICM, RND)
- 后验采样: Thompson Sampling
- 最大熵: SAC 框架中的自动探索
5. 与 LLM 后训练的连接
5.1 RLHF 流程
大语言模型的强化学习微调是当前RL最重要的应用之一:
- 监督微调 (SFT): 用高质量数据微调预训练模型
- 奖励模型训练: 从人类偏好数据训练奖励模型 \(R_\phi(x, y)\)
- RL 优化: 用 PPO 优化策略,加 KL 散度约束
\[\max_\theta \mathbb{E}_{x \sim D, y \sim \pi_\theta(y|x)} \left[ R_\phi(x,y) - \beta D_{KL}(\pi_\theta \| \pi_{ref}) \right]\]
5.2 RLHF 之后的发展
| 方法 | 特点 |
|---|---|
| DPO | 无需显式奖励模型,直接从偏好优化 |
| GRPO | 组相对策略优化,用于数学推理 |
| RLAIF | 用AI反馈替代人类反馈 |
| Constitutional AI | 基于原则的自我改进 |
5.3 RL 视角下的 LLM
从 RL 角度看 LLM:
- 状态: 已生成的 token 序列
- 动作: 下一个 token 的选择
- 策略: 语言模型 \(\pi_\theta(a_t | s_t)\)
- 奖励: 人类偏好 / AI 评判 / 验证器反馈
- 环境: 任务上下文 + 评估机制
6. 前沿方向
6.1 当前热点
- LLM 推理增强: 用RL训练模型的推理能力 (o1, DeepSeek-R1)
- 具身智能: 机器人操控、导航中的RL (RT-2, Mobile ALOHA)
- 世界模型: 学习环境的预测模型 (Dreamer, IRIS)
- 安全RL: 约束优化、鲁棒策略
- 离线到在线: Offline-to-Online RL微调
6.2 开放挑战
- 样本效率: 如何减少需要的交互次数?
- 泛化能力: 如何迁移到新任务/环境?
- 长期信用分配: 稀疏奖励下的学习
- 安全性: 训练和部署中的安全保障
- 可扩展性: 大规模环境中的高效训练
- 对齐问题: 确保智能体行为符合人类意图
7. 学习路线建议
入门:
MDP基础 → 动态规划 → MC方法 → TD学习 → Q-Learning
进阶:
DQN → Policy Gradient → Actor-Critic → PPO → SAC
深入:
模型基础RL → 离线RL → 多智能体RL → 层次化RL
应用:
RLHF → 机器人RL → 游戏AI → 推理增强
参考资料
- Sutton & Barto, Reinforcement Learning: An Introduction (2018)
- Sergey Levine, UC Berkeley CS285: Deep Reinforcement Learning
- David Silver, UCL RL Course
- OpenAI Spinning Up in Deep RL
延伸阅读
- 经典强化学习入门 — MDP与基础算法详解
- 深度强化学习 — DQN、PPO、SAC等深度方法
- LLM 后训练中的 RL — RLHF、DPO等
- 多智能体强化学习 — MARL方法与应用