Fine-tuning Fine-tuning (微调) SFT (Supervised Fine-Tuning): 传统的微调,给数据对。 PEFT (LoRA, Adapter): 怎么省钱地微调。 Alignment (对齐技术): RLHF: 用强化学习微调(ChatGPT的核心)。 DPO (Direct Preference Optimization): 最近很火的去掉了强化学习的简化版 RLHF。 评论 #