Skip to content

刘杰夫的人工智能学习笔记

Fine-tuning

刘杰夫的人工智能学习笔记

首页
日记
计算机科学
计算机科学
算法
算法
古典人工智能
古典人工智能
- 人工智能综述
- 对抗搜索和博弈
传统机器学习
传统机器学习
- 机器学习基础
深度学习
深度学习
强化学习
强化学习
机器人
机器人
具身智能
具身智能
- 具身智能综述
- 生成式智能体综述
AI Agent开发
AI Agent开发
社会学/心理学
社会学/心理学
- 叙事模型

Fine-tuning

Fine-tuning (微调)

SFT (Supervised Fine-Tuning): 传统的微调，给数据对。
PEFT (LoRA, Adapter): 怎么省钱地微调。
Alignment (对齐技术):
RLHF: 用强化学习微调（ChatGPT的核心）。
DPO (Direct Preference Optimization): 最近很火的去掉了强化学习的简化版 RLHF。

评论 #