跳转至

探索与奖励

本章节涵盖强化学习中探索策略设计与奖励工程的核心内容。

内容概览

探索策略

探索与利用的权衡问题,包括经典方法(ε-greedy、Boltzmann、UCB)和基于好奇心的现代方法(ICM、RND、NovelD、Go-Explore)。

奖励工程

奖励塑形(reward shaping)、奖励课程、稀疏与稠密奖励、多目标奖励、基于人类反馈的奖励(RLHF)、奖励黑客及其缓解策略。

逆强化学习

从专家演示中恢复奖励函数,包括最大熵IRL、生成对抗模仿学习(GAIL)、AIRL,以及与模仿学习的联系。

核心思想

探索与奖励是强化学习的两大基础问题:

  • 探索问题:如何在未知环境中高效获取信息?
  • 奖励设计:如何定义正确的优化目标?
  • 逆强化学习:如何从行为中推断目标?

这三个问题紧密相连——好的探索策略需要内在奖励的引导,而逆强化学习提供了从演示中自动获取奖励的途径。


评论 #