跳转至

高级强化学习

本章节涵盖强化学习中的高级研究方向,包括分层方法、安全约束、元学习和表示学习。

内容概览

分层强化学习

Options框架、MAXQ值分解、Feudal Networks、目标条件RL(HER、HIRO、HAC)。

安全强化学习

约束MDP、拉格朗日方法、CPO、安全层、形式化验证屏蔽、仿真到真实的安全迁移。

元强化学习

跨任务学习:RL²、MAML for RL、基于上下文的方法(PEARL)、任务推断与少样本适应。

表示学习与RL

状态表示学习、数据增强(DrQ、RAD)、对比RL(CURL)、双模拟度量、世界模型表示、自预测表示。

核心主题

这些高级方法解决的是标准RL框架难以应对的现实挑战:

  • 分层RL:处理长时间尺度和稀疏奖励问题
  • 安全RL:保证策略满足安全约束
  • 元RL:实现跨任务的快速适应
  • 表示学习:从高维观测中提取有效的状态表示

评论 #