LLM 后训练 (Post-Training)

本章从强化学习视角深入讲解大语言模型的后训练方法。预训练赋予了 LLM 强大的语言能力，但 "预测下一个 token" 并不等同于 "按照人类期望行事"。后训练通过各种 RL 及其变体方法，将 LLM 的行为与人类偏好对齐。