Skip to content

刘杰夫的人工智能学习笔记

经典强化学习

经典强化学习

经典强化学习研究智能体如何通过与环境交互来学习最优策略，是深度强化学习的理论基础。

本章内容：

经典强化学习介绍 — MDP框架、价值函数、策略
多臂老虎机问题 — 探索与利用、UCB、Thompson采样
有限MDP — 贝尔曼方程、最优策略
动态规划 — 策略迭代、价值迭代
蒙特卡洛方法 — MC预测、MC控制、重要性采样
TD(0) — 时序差分学习、SARSA、Q-Learning
N-step TD — 多步自举、偏差方差权衡
学习与规划 — Dyna架构、模型学习
近似方法 — 函数逼近、线性方法
TD(lambda) — 资格迹、前向视角与后向视角
策略梯度 — REINFORCE、基线函数、Actor-Critic

评论 #