Skip to content

LLM 后训练 (Post-Training)

本章从强化学习视角深入讲解大语言模型的后训练方法。预训练赋予了 LLM 强大的语言能力,但 "预测下一个 token" 并不等同于 "按照人类期望行事"。后训练通过各种 RL 及其变体方法,将 LLM 的行为与人类偏好对齐。

内容


评论 #