刘杰夫的强化学习笔记
Hello!欢迎来到我的强化学习笔记。之所以编辑这个精读笔记,一是为了勉励自己学习,二是在制作的过程中思考AI时代的教育应该是怎样的。
在我的笔记中每章内容包括:
- 正文:课本的主干知识点整理和梳理
- Exercise:书中练习
- Math:数学公式推导
- Programming:针对书中提到但未单独设置题目的经典问题或是读者自己加入的一些练习的具体讲解
代码单独作为一个独立的附录放在了单独的文件中,详见目录。
关于我为什么整理这个笔记
2022年夏天我开始在学校教基础Java知识,2022年底ChatGPT横空出世;ChatGPT给我带来了巨大的震撼,让我想起了自己高中时玩机器人的经历,当时很多教授推荐我学人工智能,没想到短短十年不到的时间人工智能便发展到了如此惊人的地步。半年后,我毅然决定返校进修学习AI相关知识,因为我感受到了时代巨浪:AI将彻底重塑人类社会和人类世界。
2023年底我开始申请美国的学校,然后在2024年秋天重返学校。返回学校后,我的选课策略围绕AI和我感兴趣的机器人,并在两个学期的学习后确认了自己的兴趣所在:机器人和强化学习。我的机器人学习生涯开始于Pito Salas教授的Robotics课程和在Brandeis Robotics Lab的ROS开发经历,而强化学习生涯开始于Jivko Sinapov的Reinforcement Learning课程。感谢两位教授的课程对我的启发,带我入门强化学习的世界。
我们现在迎来了一个前所未有的,有利于热爱学习的人的时代:一个月只需要20美元,就能有一个全天候陪伴的私人大语言模型言传身教,对于学习基础类知识有着天然的优势。如果没有ChatGPT,我很难相信作为一个已经十年没有学习数学的人,连微积分都忘掉的人,能如此之快地入门并感受到强化学习的魅力。在ChatGPT的帮助下,我也省去了大量学习代码语法本身的时间,专注于知识概念本身,可以说没有ChatGPT就没有我的计算机科学硕士学位。
我的愿望是2026年在返校进修结束后,能从事相关工作,这样我就可以有更多的世界进行更多的实践和研究了。
如果有问题,可以在B站私信我,或者给我发邮件!链接可以在我的主页中找到:个人主页
强化学习导论
在这一部分中,我将以Sutton&Barto的强化学习导论(第二版)为核心进行精度,精细到每一个练习、每一个知识点,并在后续将配套一个讲解视频。在完成精读经典教材的工作后,我将继续沿着深度强化学习和应用的路,不断更新本笔记。
我的笔记和常规的强化学习导论的直接翻译版本相比,以一个初学者的视角去看待所有的概念,对其中所有的数学推导、课本中出现的图、没有答案的练习题等都给出了详细的推导过程、复现以及答案。对于数学背景、计算机背景较好的同学,我推荐直接去看原书或者看一些更加精炼的知识点总结和视频,我的笔记及讲解视频会比较冗长,主要面向初学者、入门者。
我在整理笔记的时候同时也预留了后续讲课时作为课件的作用,所以在很多地方会通过举例说明来讲解,并配一些图,这些既方便我自己复习或者备课时用,也方便看我笔记的人跟着我展现的思路去理解知识点。
深度强化学习
在这一部分,我将以Aske Plaat的教材Deep Reinforcement Learning作为基础,结合UCB的Sergey Levine教授的课程CS285 Deep Reinforcement Learning,将主要的深度强化学习基础内容进行梳理、精读与讲解。
深度学习本身我会新开一个深度学习笔记(以Ian的教材为核心进行精读),如果有需要补充深度学习相关的基础知识的同学,可以先在我的深度学习笔记这里补充基础知识。如果对深度学习的基本概念有了解,则不需要额外补充,在学习过程中遇到需要补充的地方直接补充就可以了。