强化学习概览 本章节提供强化学习领域的全局视角,帮助读者建立从经典方法到前沿应用的完整知识框架。 内容导航 主题 说明 强化学习全景 RL方法论体系:从Bellman方程到RLHF,涵盖模型无关/模型基础、在线/离线、单智能体/多智能体等分类维度 RL里程碑 强化学习发展史上的关键突破:TD-Gammon、DQN、AlphaGo、ChatGPT、o1等标志性成果 推荐阅读顺序 先阅读 强化学习全景 建立方法论框架 再通过 RL里程碑 了解历史发展脉络 然后根据兴趣深入各专题章节 相关章节 经典强化学习 — MDP、动态规划、蒙特卡洛、时序差分 深度强化学习 — DQN、PPO、SAC等 策略梯度 — 策略梯度方法详解 多智能体强化学习 — MARL方法与应用 评论 #