强化学习全景

概述

强化学习(Reinforcement Learning, RL)是机器学习的三大范式之一,研究智能体如何在与环境的交互中通过试错学习最优行为策略。从 Bellman 在1950年代提出动态规划,到2020年代 RLHF 驱动大语言模型对齐,RL 已经发展为一个庞大而深刻的研究领域。

本文旨在提供一幅强化学习的全景地图,帮助读者理清方法论脉络、算法分类和前沿方向。

1. 马尔可夫决策过程 (MDP)

1.1 基本框架

强化学习的数学基础是 马尔可夫决策过程 (MDP),定义为五元组 \((\mathcal{S}, \mathcal{A}, P, R, \gamma)\):

\(\mathcal{S}\): 状态空间
\(\mathcal{A}\): 动作空间
\(P(s'|s,a)\): 状态转移概率
\(R(s,a,s')\): 奖励函数
\(\gamma \in [0,1)\): 折扣因子

1.2 核心目标

智能体的目标是找到最优策略 \(\pi^*\),最大化累积折扣回报的期望:

\[V^\pi(s) = \mathbb{E}_\pi\left[\sum_{t=0}^{\infty} \gamma^t r_t \mid s_0 = s\right]\]

1.3 Bellman 方程

状态价值函数的 Bellman 方程:

\[V^\pi(s) = \sum_a \pi(a|s) \sum_{s'} P(s'|s,a) \left[ R(s,a,s') + \gamma V^\pi(s') \right]\]

动作价值函数的 Bellman 方程:

\[Q^\pi(s,a) = \sum_{s'} P(s'|s,a) \left[ R(s,a,s') + \gamma \sum_{a'} \pi(a'|s') Q^\pi(s',a') \right]\]

最优 Bellman 方程:

\[V^*(s) = \max_a \sum_{s'} P(s'|s,a) \left[ R(s,a,s') + \gamma V^*(s') \right]\]

1.4 MDP 的扩展

扩展模型	特点	应用场景
POMDP	部分可观测	机器人导航、对话系统
Dec-POMDP	分布式部分可观测	多智能体协作
CMDP	带约束的MDP	安全强化学习
Semi-MDP	时间抽象	层次化强化学习

2. 强化学习分类体系

2.1 总体分类树

graph TD
    RL[强化学习] --> MF[模型无关<br>Model-Free]
    RL --> MB[模型基础<br>Model-Based]

    MF --> VB[基于价值<br>Value-Based]
    MF --> PG[基于策略<br>Policy-Based]
    MF --> AC[演员-评论家<br>Actor-Critic]

    VB --> DQN[DQN系列]
    VB --> TD[TD Learning]

    PG --> REINFORCE[REINFORCE]
    PG --> TRPO[TRPO]
    PG --> PPO[PPO]

    AC --> A2C[A2C/A3C]
    AC --> SAC[SAC]
    AC --> DDPG[DDPG/TD3]

    MB --> Dyna[Dyna架构]
    MB --> MBPO[MBPO]
    MB --> MuZero[MuZero]
    MB --> WorldModel[World Models]

    RL --> Offline[离线RL]
    RL --> MARL[多智能体RL]
    RL --> HRL[层次化RL]

    style RL fill:#e1f5fe
    style MF fill:#fff3e0
    style MB fill:#e8f5e9

2.2 模型无关 vs 模型基础

模型无关方法 (Model-Free)

不需要环境动力学模型,直接从交互经验中学习:

基于价值 (Value-Based): 学习价值函数,间接导出策略 - Q-Learning, SARSA, DQN, Double DQN, Dueling DQN, Rainbow
基于策略 (Policy-Based): 直接参数化并优化策略 - REINFORCE, TRPO, PPO
演员-评论家 (Actor-Critic): 同时学习策略(Actor)和价值函数(Critic) - A2C, A3C, SAC, DDPG, TD3

模型基础方法 (Model-Based)

学习或利用环境模型进行规划:

学习动力学模型: Dyna, MBPO, Dreamer
规划搜索: AlphaGo, MuZero
世界模型: World Models, IRIS

选择指南

样本效率优先 → 模型基础方法
实现简单、渐近性能优先 → 模型无关方法
两者结合 → Dyna 架构

2.3 在线策略 vs 离线策略

维度	在线策略 (On-Policy)	离线策略 (Off-Policy)
定义	行为策略 = 目标策略	行为策略 ≠ 目标策略
数据利用	低(用后即弃)	高(可重用)
稳定性	较好	需要额外技巧
代表算法	SARSA, PPO, A2C	Q-Learning, DQN, SAC
经验回放	不使用	使用

2.4 离线强化学习 (Offline RL)

完全从静态数据集学习,不与环境交互:

核心挑战: 分布偏移 (distribution shift)、外推误差
代表方法: BCQ, CQL, IQL, Decision Transformer
应用场景: 医疗决策、自动驾驶、推荐系统

2.5 单智能体 vs 多智能体

维度	单智能体	多智能体 (MARL)
环境	静态/随机	非平稳(其他智能体也在学习)
目标	最大化自身回报	合作/竞争/混合
挑战	探索-利用平衡	信用分配、通信、可扩展性
代表	DQN, PPO, SAC	QMIX, MAPPO, MADDPG

3. 关键算法地图

3.1 按发展时间线

年代	算法	类别	关键贡献
1989	Q-Learning	Value-Based	离线策略TD控制
1992	REINFORCE	Policy Gradient	策略梯度定理
2013	DQN	Deep Value-Based	深度网络 + 经验回放
2015	DDPG	Actor-Critic	连续动作空间确定性策略
2015	TRPO	Policy Gradient	信赖域优化
2016	A3C	Actor-Critic	异步并行训练
2017	PPO	Policy Gradient	裁剪目标,简单高效
2018	SAC	Actor-Critic	最大熵框架
2018	TD3	Actor-Critic	双Q裁剪,延迟更新
2020	CQL	Offline RL	保守Q学习
2021	Decision Transformer	Offline RL	序列建模视角

3.2 按适用场景

离散动作空间:
  ├── 简单任务 → Q-Learning / SARSA
  ├── 高维观测 → DQN / Rainbow
  └── 多智能体 → QMIX / VDN

连续动作空间:
  ├── 确定性策略 → DDPG / TD3
  ├── 随机策略 → SAC
  ├── 稳定训练 → PPO / TRPO
  └── 多智能体 → MADDPG / MAPPO

特殊场景:
  ├── 静态数据 → CQL / IQL / Decision Transformer
  ├── 需要规划 → MuZero / Dreamer
  └── LLM对齐 → RLHF (PPO) / DPO / GRPO

4. 深度强化学习的核心组件

4.1 函数逼近

价值网络: 用神经网络近似 \(V(s)\) 或 \(Q(s,a)\)
策略网络: 用神经网络参数化策略 \(\pi_\theta(a|s)\)
模型网络: 用神经网络近似环境动力学 \(P(s'|s,a)\)

4.2 稳定训练的关键技术

技术	解决的问题	使用算法
经验回放 (Experience Replay)	样本相关性、数据效率	DQN, DDPG, SAC
目标网络 (Target Network)	训练不稳定	DQN, DDPG, TD3
裁剪 (Clipping)	过大的策略更新	PPO
信赖域 (Trust Region)	策略更新步长控制	TRPO
熵正则化 (Entropy Regularization)	过早收敛、探索不足	SAC, A3C
优先经验回放 (PER)	样本利用效率	Rainbow

4.3 探索策略

\(\epsilon\)-贪心: 简单有效,适用于离散空间
Boltzmann 探索: 基于价值的概率探索
UCB: 上置信界,乐观面对不确定性
内在动机: 好奇心驱动 (ICM, RND)
后验采样: Thompson Sampling
最大熵: SAC 框架中的自动探索

5. 与 LLM 后训练的连接

5.1 RLHF 流程

大语言模型的强化学习微调是当前RL最重要的应用之一:

监督微调 (SFT): 用高质量数据微调预训练模型
奖励模型训练: 从人类偏好数据训练奖励模型 \(R_\phi(x, y)\)
RL 优化: 用 PPO 优化策略,加 KL 散度约束

\[\max_\theta \mathbb{E}_{x \sim D, y \sim \pi_\theta(y|x)} \left[ R_\phi(x,y) - \beta D_{KL}(\pi_\theta \| \pi_{ref}) \right]\]

5.2 RLHF 之后的发展

方法	特点
DPO	无需显式奖励模型,直接从偏好优化
GRPO	组相对策略优化,用于数学推理
RLAIF	用AI反馈替代人类反馈
Constitutional AI	基于原则的自我改进

5.3 RL 视角下的 LLM

从 RL 角度看 LLM:

状态: 已生成的 token 序列
动作: 下一个 token 的选择
策略: 语言模型 \(\pi_\theta(a_t | s_t)\)
奖励: 人类偏好 / AI 评判 / 验证器反馈
环境: 任务上下文 + 评估机制

6. 前沿方向

6.1 当前热点

LLM 推理增强: 用RL训练模型的推理能力 (o1, DeepSeek-R1)
具身智能: 机器人操控、导航中的RL (RT-2, Mobile ALOHA)
世界模型: 学习环境的预测模型 (Dreamer, IRIS)
安全RL: 约束优化、鲁棒策略
离线到在线: Offline-to-Online RL微调

6.2 开放挑战

样本效率: 如何减少需要的交互次数?
泛化能力: 如何迁移到新任务/环境?
长期信用分配: 稀疏奖励下的学习
安全性: 训练和部署中的安全保障
可扩展性: 大规模环境中的高效训练
对齐问题: 确保智能体行为符合人类意图

7. 学习路线建议

入门:
  MDP基础 → 动态规划 → MC方法 → TD学习 → Q-Learning

进阶:
  DQN → Policy Gradient → Actor-Critic → PPO → SAC

深入:
  模型基础RL → 离线RL → 多智能体RL → 层次化RL

应用:
  RLHF → 机器人RL → 游戏AI → 推理增强