Skip to content

Fine-tuning

Fine-tuning (微调)

  • SFT (Supervised Fine-Tuning): 传统的微调,给数据对。
  • PEFT (LoRA, Adapter): 怎么省钱地微调。
  • Alignment (对齐技术):
  • RLHF: 用强化学习微调(ChatGPT的核心)。
  • DPO (Direct Preference Optimization): 最近很火的去掉了强化学习的简化版 RLHF。

评论 #