StableBaseline3介绍(Atari为例)
我们从Atari入手,了解如何设计强化学习智能体,并使用封装好底层计算的StableBaseline3来进行训练。由于强化学习的核心应用在机器人领域,因此我把强化学习训练放在了机器人笔记本区中。
关于强化学习底层计算理论的相关内容,请参阅人工智能笔记中的强化学习笔记。
Atari Games
首先来了解一下什么是Atari Game。
奖励
奖励剪裁 reward clipping,episode_reward
累加差异
训练输入文件与输出文件
TensorBoard
rollout/是什么?
评估
。
# 1. 查看 TensorBoard
tensorboard --logdir=training_runs/run_*/logs
# 2. 测试最佳模型(确定性)
python visualize_agent.py --model-path .../best_model.zip --episodes 20 --deterministic
# 3. 测试最佳模型(随机性)
python visualize_agent.py --model-path .../best_model.zip --episodes 20
# 4. 对比最终模型
python visualize_agent.py --model-path .../ppo_breakout_final.zip --episodes 20 --deterministic
# 5. 录制最佳表现
python visualize_agent.py --model-path .../best_model.zip --record --deterministic
.