探索与奖励
本章节涵盖强化学习中探索策略设计与奖励工程的核心内容。
内容概览
探索策略
探索与利用的权衡问题,包括经典方法(ε-greedy、Boltzmann、UCB)和基于好奇心的现代方法(ICM、RND、NovelD、Go-Explore)。
奖励工程
奖励塑形(reward shaping)、奖励课程、稀疏与稠密奖励、多目标奖励、基于人类反馈的奖励(RLHF)、奖励黑客及其缓解策略。
逆强化学习
从专家演示中恢复奖励函数,包括最大熵IRL、生成对抗模仿学习(GAIL)、AIRL,以及与模仿学习的联系。
核心思想
探索与奖励是强化学习的两大基础问题:
- 探索问题:如何在未知环境中高效获取信息?
- 奖励设计:如何定义正确的优化目标?
- 逆强化学习:如何从行为中推断目标?
这三个问题紧密相连——好的探索策略需要内在奖励的引导,而逆强化学习提供了从演示中自动获取奖励的途径。