经典强化学习
经典强化学习研究智能体如何通过与环境交互来学习最优策略,是深度强化学习的理论基础。
本章内容:
- 经典强化学习介绍 — MDP框架、价值函数、策略
- 多臂老虎机问题 — 探索与利用、UCB、Thompson采样
- 有限MDP — 贝尔曼方程、最优策略
- 动态规划 — 策略迭代、价值迭代
- 蒙特卡洛方法 — MC预测、MC控制、重要性采样
- TD(0) — 时序差分学习、SARSA、Q-Learning
- N-step TD — 多步自举、偏差方差权衡
- 学习与规划 — Dyna架构、模型学习
- 近似方法 — 函数逼近、线性方法
- TD(lambda) — 资格迹、前向视角与后向视角
- 策略梯度 — REINFORCE、基线函数、Actor-Critic