LLM 后训练 (Post-Training)
本章从强化学习视角深入讲解大语言模型的后训练方法。预训练赋予了 LLM 强大的语言能力,但 "预测下一个 token" 并不等同于 "按照人类期望行事"。后训练通过各种 RL 及其变体方法,将 LLM 的行为与人类偏好对齐。
内容
- LLM 后训练与强化学习 -- 从 RLHF 到 GRPO,从 DPO 到 RLVR,完整覆盖后训练方法的 RL 原理与数学推导
本章从强化学习视角深入讲解大语言模型的后训练方法。预训练赋予了 LLM 强大的语言能力,但 "预测下一个 token" 并不等同于 "按照人类期望行事"。后训练通过各种 RL 及其变体方法,将 LLM 的行为与人类偏好对齐。