跳转至

刘杰夫的人工智能学习笔记

探索与奖励

探索与奖励

本章节涵盖强化学习中探索策略设计与奖励工程的核心内容。

内容概览

探索策略

探索与利用的权衡问题，包括经典方法（ε-greedy、Boltzmann、UCB）和基于好奇心的现代方法（ICM、RND、NovelD、Go-Explore）。

奖励工程

奖励塑形（reward shaping）、奖励课程、稀疏与稠密奖励、多目标奖励、基于人类反馈的奖励（RLHF）、奖励黑客及其缓解策略。

逆强化学习

从专家演示中恢复奖励函数，包括最大熵IRL、生成对抗模仿学习（GAIL）、AIRL，以及与模仿学习的联系。

核心思想

探索与奖励是强化学习的两大基础问题：

探索问题：如何在未知环境中高效获取信息？
奖励设计：如何定义正确的优化目标？
逆强化学习：如何从行为中推断目标？

这三个问题紧密相连——好的探索策略需要内在奖励的引导，而逆强化学习提供了从演示中自动获取奖励的途径。

评论 #