高级强化学习
本章节涵盖强化学习中的高级研究方向,包括分层方法、安全约束、元学习和表示学习。
内容概览
分层强化学习
Options框架、MAXQ值分解、Feudal Networks、目标条件RL(HER、HIRO、HAC)。
安全强化学习
约束MDP、拉格朗日方法、CPO、安全层、形式化验证屏蔽、仿真到真实的安全迁移。
元强化学习
跨任务学习:RL²、MAML for RL、基于上下文的方法(PEARL)、任务推断与少样本适应。
表示学习与RL
状态表示学习、数据增强(DrQ、RAD)、对比RL(CURL)、双模拟度量、世界模型表示、自预测表示。
核心主题
这些高级方法解决的是标准RL框架难以应对的现实挑战:
- 分层RL:处理长时间尺度和稀疏奖励问题
- 安全RL:保证策略满足安全约束
- 元RL:实现跨任务的快速适应
- 表示学习:从高维观测中提取有效的状态表示