安全与对齐 (Safety & Alignment)
什么是对齐 (Alignment)
对齐问题的核心是:
如何让 AI 系统的行为符合人类的价值观、意图和期望。
预训练的语言模型本质上是一个 "文本补全器" -- 它学会了预测下一个 token,但这并不意味着它会按照人类期望的方式行事。一个未对齐的 LLM 可能会:
- 生成有害、有毒或歧视性的内容
- 提供看似正确但实际错误的信息(幻觉)
- 忽略用户意图,生成无关的回答
- 被恶意提示诱导产生危险输出
对齐的目标通常概括为 HHH 原则:
| 原则 | 含义 |
|---|---|
| Helpful (有用) | 模型应尽力帮助用户完成任务 |
| Honest (诚实) | 模型应提供准确信息,对不确定的事情表示不确定 |
| Harmless (无害) | 模型不应生成有害内容,不应协助危险行为 |
RLHF:基于人类反馈的强化学习
RLHF (Reinforcement Learning from Human Feedback) 是当前最主流的对齐方法,由 InstructGPT (Ouyang et al., 2022) 系统化地应用于 LLM。
完整流程
RLHF 三阶段流程:
阶段一:SFT (Supervised Fine-Tuning)
┌─────────────────────────────────────────────┐
│ 收集高质量 (prompt, response) 数据对 │
│ 在预训练 LLM 上做监督微调 │
│ 产出:SFT Model (π_SFT) │
└─────────────────────────────────────────────┘
↓
阶段二:Reward Model 训练
┌─────────────────────────────────────────────┐
│ 对同一 prompt,让 SFT 模型生成多个回答 │
│ 人类标注者对回答进行偏好排序 (y_w > y_l) │
│ 训练 Reward Model 学习人类偏好 │
│ 产出:Reward Model (r_φ) │
└─────────────────────────────────────────────┘
↓
阶段三:RL 优化 (PPO)
┌─────────────────────────────────────────────┐
│ 用 Reward Model 评分作为奖励信号 │
│ 通过 PPO 算法优化 LLM 策略 │
│ KL 惩罚防止偏离 SFT 模型太远 │
│ 产出:对齐后的 LLM (π_RLHF) │
└─────────────────────────────────────────────┘
阶段一:SFT
收集由人类标注者撰写的高质量 (指令, 回答) 数据,在预训练模型上做标准的监督微调:
SFT 的作用是让模型学会 "回答问题" 的基本格式和行为模式。
阶段二:Reward Model
给定一个 prompt \(x\),模型生成两个回答 \(y_w\)(更好的)和 \(y_l\)(较差的),人类标注者标注偏好。
Reward Model 的训练目标 (Bradley-Terry Model):
其中 \(\sigma\) 是 sigmoid 函数。这个目标确保 Reward Model 对人类更偏好的回答给出更高的分数。
阶段三:PPO 优化
以 Reward Model 的输出作为奖励信号,用 PPO 算法优化 LLM 的策略:
- \(r_\phi(x, y)\):Reward Model 给出的奖励分数
- \(\beta \cdot \text{KL}(\cdot \| \cdot)\):KL 散度惩罚项,防止策略偏离 SFT 模型过远
- \(\beta\) 控制探索与约束之间的平衡
KL 惩罚的重要性:没有 KL 约束,模型可能会找到 Reward Model 的漏洞 (reward hacking),生成获得高分但实际质量低下的回答。
RLAIF:Constitutional AI
Anthropic 提出的 Constitutional AI (CAI) 用 AI 反馈替代部分人类反馈。
核心思想
用一套明确的 "宪法" (constitution) 规则指导 AI 自我修正,减少对人类标注的依赖。
流程
Constitutional AI 流程:
1. 让模型生成回答 (可能包含有害内容)
2. 让模型根据宪法规则自我批评并修改回答
3. 用修改后的 (原始, 修改后) 对训练 preference model
4. 用 RL 进一步优化
宪法规则示例:
- "请修改回答,使其不包含种族歧视内容"
- "请修改回答,使其更加诚实和准确"
- "请修改回答,使其不会帮助用户从事违法活动"
RLAIF 的优势:
- 减少人类标注成本
- 规则明确、可审计
- 更容易规模化
DPO:Direct Preference Optimization
Rafailov et al. (2023) 提出了 DPO,作为 RLHF 的简化替代方案。
核心洞察
RLHF 的 RL 阶段(PPO)训练不稳定且复杂。DPO 发现可以将 RL 问题转化为一个简单的分类问题。
数学推导
从 RLHF 的最优策略出发,可以推导出 reward function 与 policy 之间的关系:
将此代入 Bradley-Terry 偏好模型,消去 \(Z(x)\),得到 DPO 损失:
DPO vs RLHF 对比
| 方面 | RLHF (PPO) | DPO |
|---|---|---|
| 是否需要 Reward Model | 是 | 否 |
| 训练稳定性 | 较差,需要仔细调参 | 好,类似标准监督学习 |
| 计算成本 | 高(需要多个模型同时在线) | 低 |
| 理论最优性 | 近似最优 | 等价于 RLHF 的闭式解 |
| 实际效果 | 通常更好(但更难训练) | 接近 RLHF,某些场景更好 |
DPO 的成功使得对齐训练更加易于实施,推动了开源 LLM 对齐的普及。
DPO 的变体
- IPO (Identity Preference Optimization):解决 DPO 对偏好数据分布的敏感性
- KTO (Kahneman-Tversky Optimization):只需要二元反馈(好/坏),不需要成对比较
- ORPO (Odds Ratio Preference Optimization):将 SFT 和偏好优化合并为一步
幻觉问题 (Hallucination)
幻觉是指模型生成看似合理但与事实不符的内容,是 LLM 面临的核心挑战之一。
幻觉的分类
| 类型 | 描述 | 示例 |
|---|---|---|
| 事实性幻觉 | 生成与已知事实矛盾的内容 | "爱因斯坦发明了电话" |
| 忠实性幻觉 | 生成与输入上下文矛盾的内容 | 摘要中出现原文没有的信息 |
| 推理性幻觉 | 推理过程中出现逻辑错误 | 数学计算中的步骤错误 |
幻觉的原因
- 训练数据噪声:互联网数据本身包含错误信息
- 训练目标偏差:Next-token prediction 优化流畅性而非事实准确性
- 知识截断:模型只知道训练截止日期之前的信息
- 过度自信:模型倾向于给出确定性的回答,即使不确定
缓解策略
- 检索增强生成 (RAG):从外部知识库检索事实,降低幻觉
- 链式验证 (Chain-of-Verification):让模型自我检验生成的内容
- 置信度校准:训练模型在不确定时表达不确定性
- 事实性奖励:在 RLHF 中加入事实准确性的奖励信号
Red Teaming 与安全评估
Red Teaming
Red teaming 是一种对抗性评估方法,通过模拟攻击者来发现模型的安全漏洞。
常见的攻击方式:
| 攻击类型 | 描述 |
|---|---|
| Jailbreak | 通过精心设计的 prompt 绕过安全防护 |
| Prompt Injection | 在输入中嵌入恶意指令覆盖系统提示 |
| 多语言攻击 | 利用低资源语言绕过安全过滤器 |
| 编码攻击 | 用 base64、ROT13 等编码隐藏恶意请求 |
| 多步攻击 | 通过多轮对话逐步诱导模型输出有害内容 |
安全评估基准
| 基准 | 评估内容 |
|---|---|
| TruthfulQA | 事实准确性,抵抗常见误解 |
| ToxiGen | 有毒内容生成 |
| BBQ | 社会偏见 |
| HarmBench | 综合安全性评估 |
| WMDP | 大规模杀伤性武器相关知识的泄露风险 |
当前挑战与开放问题
1. Reward Hacking
模型可能学会 "欺骗" Reward Model,生成获得高奖励分数但实际质量低的回答。
2. 超级对齐 (Superalignment)
当 AI 系统能力超越人类时,如何确保对齐?人类无法可靠地评估超出自身能力的 AI 输出。
OpenAI 的 Superalignment 计划提出了 "弱监督强模型" 的研究方向:用较弱的模型监督较强的模型。
3. 对齐税 (Alignment Tax)
对齐训练往往以牺牲部分模型能力为代价。如何在安全性和有用性之间找到最优平衡,是一个持续的挑战。
4. 价值多元性
不同文化、群体对 "好的行为" 有不同的定义。模型应该对齐到谁的价值观?
5. 可解释对齐
当前的对齐方法(RLHF、DPO)本质上是 "黑盒" 的 -- 我们无法精确理解对齐训练改变了模型的哪些内部机制。
6. 评估困难
对于开放式生成任务,如何客观、全面地评估模型的安全性仍缺乏共识。
对齐方法总结
| 方法 | 核心思想 | 优势 | 劣势 |
|---|---|---|---|
| SFT | 监督学习模仿人类回答 | 简单有效 | 只能模仿,难以超越人类 |
| RLHF (PPO) | 人类偏好 + 强化学习 | 效果好,可超越 SFT | 训练复杂不稳定 |
| RLAIF (CAI) | AI 自我反馈 + 宪法规则 | 可扩展,规则透明 | AI 评估可能有偏差 |
| DPO | 直接偏好优化 | 简单稳定 | 对数据质量敏感 |
| ORPO | SFT + 偏好一步到位 | 训练流程简化 | 效果待进一步验证 |
对齐是一个持续演进的研究领域。当前的方法都是近似解,距离真正解决对齐问题还有很长的路要走。