安全与对齐 (Safety & Alignment)

什么是对齐 (Alignment)

对齐问题的核心是：

如何让 AI 系统的行为符合人类的价值观、意图和期望。

预训练的语言模型本质上是一个 "文本补全器" -- 它学会了预测下一个 token，但这并不意味着它会按照人类期望的方式行事。一个未对齐的 LLM 可能会：

生成有害、有毒或歧视性的内容
提供看似正确但实际错误的信息（幻觉）
忽略用户意图，生成无关的回答
被恶意提示诱导产生危险输出

对齐的目标通常概括为 HHH 原则：

原则	含义
Helpful (有用)	模型应尽力帮助用户完成任务
Honest (诚实)	模型应提供准确信息，对不确定的事情表示不确定
Harmless (无害)	模型不应生成有害内容，不应协助危险行为

RLHF：基于人类反馈的强化学习

RLHF (Reinforcement Learning from Human Feedback) 是当前最主流的对齐方法，由 InstructGPT (Ouyang et al., 2022) 系统化地应用于 LLM。

完整流程

RLHF 三阶段流程：

阶段一：SFT (Supervised Fine-Tuning)
    ┌─────────────────────────────────────────────┐
    │  收集高质量 (prompt, response) 数据对         │
    │  在预训练 LLM 上做监督微调                    │
    │  产出：SFT Model (π_SFT)                    │
    └─────────────────────────────────────────────┘
                        ↓
阶段二：Reward Model 训练
    ┌─────────────────────────────────────────────┐
    │  对同一 prompt，让 SFT 模型生成多个回答        │
    │  人类标注者对回答进行偏好排序 (y_w > y_l)      │
    │  训练 Reward Model 学习人类偏好               │
    │  产出：Reward Model (r_φ)                    │
    └─────────────────────────────────────────────┘
                        ↓
阶段三：RL 优化 (PPO)
    ┌─────────────────────────────────────────────┐
    │  用 Reward Model 评分作为奖励信号              │
    │  通过 PPO 算法优化 LLM 策略                   │
    │  KL 惩罚防止偏离 SFT 模型太远                 │
    │  产出：对齐后的 LLM (π_RLHF)                 │
    └─────────────────────────────────────────────┘

阶段一：SFT

收集由人类标注者撰写的高质量 (指令, 回答) 数据，在预训练模型上做标准的监督微调：

\[ \mathcal{L}_{\text{SFT}} = -\sum_{t=1}^{T} \log P_\theta(y_t | x, y_{<t}) \]

SFT 的作用是让模型学会 "回答问题" 的基本格式和行为模式。

阶段二：Reward Model

给定一个 prompt \(x\)，模型生成两个回答 \(y_w\)（更好的）和 \(y_l\)（较差的），人类标注者标注偏好。

Reward Model 的训练目标 (Bradley-Terry Model)：

\[ \mathcal{L}_{\text{RM}} = -\mathbb{E}_{(x, y_w, y_l)} \left[ \log \sigma \left( r_\phi(x, y_w) - r_\phi(x, y_l) \right) \right] \]

其中 \(\sigma\) 是 sigmoid 函数。这个目标确保 Reward Model 对人类更偏好的回答给出更高的分数。

阶段三：PPO 优化

以 Reward Model 的输出作为奖励信号，用 PPO 算法优化 LLM 的策略：

\[ \max_\theta \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_\theta(y|x)} \left[ r_\phi(x, y) - \beta \cdot \text{KL}\left( \pi_\theta(y|x) \| \pi_{\text{SFT}}(y|x) \right) \right] \]

\(r_\phi(x, y)\)：Reward Model 给出的奖励分数
\(\beta \cdot \text{KL}(\cdot \| \cdot)\)：KL 散度惩罚项，防止策略偏离 SFT 模型过远
\(\beta\) 控制探索与约束之间的平衡

KL 惩罚的重要性：没有 KL 约束，模型可能会找到 Reward Model 的漏洞 (reward hacking)，生成获得高分但实际质量低下的回答。

RLAIF：Constitutional AI

Anthropic 提出的 Constitutional AI (CAI) 用 AI 反馈替代部分人类反馈。

核心思想

用一套明确的 "宪法" (constitution) 规则指导 AI 自我修正，减少对人类标注的依赖。

流程

Constitutional AI 流程：

1. 让模型生成回答 (可能包含有害内容)
2. 让模型根据宪法规则自我批评并修改回答
3. 用修改后的 (原始, 修改后) 对训练 preference model
4. 用 RL 进一步优化

宪法规则示例：
- "请修改回答，使其不包含种族歧视内容"
- "请修改回答，使其更加诚实和准确"
- "请修改回答，使其不会帮助用户从事违法活动"

RLAIF 的优势：

减少人类标注成本
规则明确、可审计
更容易规模化

DPO：Direct Preference Optimization

Rafailov et al. (2023) 提出了 DPO，作为 RLHF 的简化替代方案。

核心洞察

RLHF 的 RL 阶段（PPO）训练不稳定且复杂。DPO 发现可以将 RL 问题转化为一个简单的分类问题。

数学推导

从 RLHF 的最优策略出发，可以推导出 reward function 与 policy 之间的关系：

\[ r(x, y) = \beta \log \frac{\pi_\theta(y|x)}{\pi_{\text{ref}}(y|x)} + \beta \log Z(x) \]

将此代入 Bradley-Terry 偏好模型，消去 \(Z(x)\)，得到 DPO 损失：

\[ \mathcal{L}_{\text{DPO}}(\theta) = -\mathbb{E}_{(x, y_w, y_l)} \left[ \log \sigma \left( \beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)} \right) \right] \]

DPO vs RLHF 对比

方面	RLHF (PPO)	DPO
是否需要 Reward Model	是	否
训练稳定性	较差，需要仔细调参	好，类似标准监督学习
计算成本	高（需要多个模型同时在线）	低
理论最优性	近似最优	等价于 RLHF 的闭式解
实际效果	通常更好（但更难训练）	接近 RLHF，某些场景更好

DPO 的成功使得对齐训练更加易于实施，推动了开源 LLM 对齐的普及。

DPO 的变体

IPO (Identity Preference Optimization)：解决 DPO 对偏好数据分布的敏感性
KTO (Kahneman-Tversky Optimization)：只需要二元反馈（好/坏），不需要成对比较
ORPO (Odds Ratio Preference Optimization)：将 SFT 和偏好优化合并为一步

幻觉问题 (Hallucination)

幻觉是指模型生成看似合理但与事实不符的内容，是 LLM 面临的核心挑战之一。

幻觉的分类

类型	描述	示例
事实性幻觉	生成与已知事实矛盾的内容	"爱因斯坦发明了电话"
忠实性幻觉	生成与输入上下文矛盾的内容	摘要中出现原文没有的信息
推理性幻觉	推理过程中出现逻辑错误	数学计算中的步骤错误

幻觉的原因

训练数据噪声：互联网数据本身包含错误信息
训练目标偏差：Next-token prediction 优化流畅性而非事实准确性
知识截断：模型只知道训练截止日期之前的信息
过度自信：模型倾向于给出确定性的回答，即使不确定

缓解策略

检索增强生成 (RAG)：从外部知识库检索事实，降低幻觉
链式验证 (Chain-of-Verification)：让模型自我检验生成的内容
置信度校准：训练模型在不确定时表达不确定性
事实性奖励：在 RLHF 中加入事实准确性的奖励信号

Red Teaming 与安全评估

Red Teaming

Red teaming 是一种对抗性评估方法，通过模拟攻击者来发现模型的安全漏洞。

常见的攻击方式：

攻击类型	描述
Jailbreak	通过精心设计的 prompt 绕过安全防护
Prompt Injection	在输入中嵌入恶意指令覆盖系统提示
多语言攻击	利用低资源语言绕过安全过滤器
编码攻击	用 base64、ROT13 等编码隐藏恶意请求
多步攻击	通过多轮对话逐步诱导模型输出有害内容

安全评估基准

基准	评估内容
TruthfulQA	事实准确性，抵抗常见误解
ToxiGen	有毒内容生成
BBQ	社会偏见
HarmBench	综合安全性评估
WMDP	大规模杀伤性武器相关知识的泄露风险

当前挑战与开放问题

1. Reward Hacking

模型可能学会 "欺骗" Reward Model，生成获得高奖励分数但实际质量低的回答。

\[ \text{Reward Hacking}: \quad \arg\max_y r_\phi(x, y) \neq \arg\max_y r_{\text{human}}(x, y) \]

2. 超级对齐 (Superalignment)

当 AI 系统能力超越人类时，如何确保对齐？人类无法可靠地评估超出自身能力的 AI 输出。

OpenAI 的 Superalignment 计划提出了 "弱监督强模型" 的研究方向：用较弱的模型监督较强的模型。

3. 对齐税 (Alignment Tax)

对齐训练往往以牺牲部分模型能力为代价。如何在安全性和有用性之间找到最优平衡，是一个持续的挑战。

4. 价值多元性

不同文化、群体对 "好的行为" 有不同的定义。模型应该对齐到谁的价值观？

5. 可解释对齐

当前的对齐方法（RLHF、DPO）本质上是 "黑盒" 的 -- 我们无法精确理解对齐训练改变了模型的哪些内部机制。

6. 评估困难

对于开放式生成任务，如何客观、全面地评估模型的安全性仍缺乏共识。

对齐方法总结

方法	核心思想	优势	劣势
SFT	监督学习模仿人类回答	简单有效	只能模仿，难以超越人类
RLHF (PPO)	人类偏好 + 强化学习	效果好，可超越 SFT	训练复杂不稳定
RLAIF (CAI)	AI 自我反馈 + 宪法规则	可扩展，规则透明	AI 评估可能有偏差
DPO	直接偏好优化	简单稳定	对数据质量敏感
ORPO	SFT + 偏好一步到位	训练流程简化	效果待进一步验证

对齐是一个持续演进的研究领域。当前的方法都是近似解，距离真正解决对齐问题还有很长的路要走。