高级强化学习

本章节涵盖强化学习中的高级研究方向，包括分层方法、安全约束、元学习和表示学习。

内容概览

Options框架、MAXQ值分解、Feudal Networks、目标条件RL（HER、HIRO、HAC）。

约束MDP、拉格朗日方法、CPO、安全层、形式化验证屏蔽、仿真到真实的安全迁移。

跨任务学习：RL²、MAML for RL、基于上下文的方法（PEARL）、任务推断与少样本适应。

状态表示学习、数据增强（DrQ、RAD）、对比RL（CURL）、双模拟度量、世界模型表示、自预测表示。

这些高级方法解决的是标准RL框架难以应对的现实挑战：