Skip to content

策略梯度Pipeline

策略梯度方法是现代强化学习的核心范式之一,从REINFORCE到PPO,所有策略梯度算法共享同一套Pipeline。本章从第一性原理出发,系统拆解这套Pipeline的每一个环节。

本章内容:

  • 策略梯度方法全解 -- Bias-Variance Tradeoff、Rollout采样、回报计算、价值估计、GAE优势估计、策略优化(TRPO/PPO/Natural Gradient)、工程技巧

评论 #