AI 对齐
概述
AI 对齐(AI Alignment)是确保 AI 系统的行为符合人类意图和价值观的研究领域。随着 AI 能力的快速增长,对齐问题从学术讨论变为迫切的工程挑战。
1. 对齐问题的本质
1.1 三个子问题
| 子问题 | 含义 | 挑战 |
|---|---|---|
| 规范问题 (Specification) | 如何准确定义我们想要什么? | 人类价值观复杂、模糊、矛盾 |
| 鲁棒性问题 (Robustness) | 如何确保 AI 在新情况下仍遵循规范? | 分布偏移、对抗操纵 |
| 保障问题 (Assurance) | 如何验证 AI 确实对齐? | 能力越强越难监督 |
1.2 核心困难
内对齐 vs 外对齐:
人类意图 ←─── 外对齐 ───→ 训练目标 ←─── 内对齐 ───→ 模型行为
外对齐问题:训练目标是否正确捕捉了人类意图?
内对齐问题:模型是否真正优化了训练目标?还是找到了捷径?
Goodhart 定律:
"当一个度量成为目标时,它就不再是好的度量。"
AI 可能以意想不到的方式最大化奖励,而非实现设计者的真正意图。
2. RLHF(人类反馈的强化学习)
2.1 流程
Step 1: 预训练语言模型(SFT)
→ 大规模文本上自监督预训练
→ 指令数据上监督微调
Step 2: 训练奖励模型 (RM)
→ 收集人类偏好数据:对同一 prompt 的多个回复排序
→ 训练模型预测人类偏好
Step 3: RL 优化 (PPO)
→ 用奖励模型的分数作为奖励
→ PPO 优化策略模型
→ KL 惩罚防止偏离 SFT 模型太远
2.2 RLHF 的局限
| 局限 | 说明 |
|---|---|
| 奖励黑客 | 模型学会操纵奖励模型而非真正改善 |
| 标注者偏见 | 人类标注者的偏好不一定代表"正确" |
| 奖励模型不完美 | RM 对分布外输入可能给出错误分数 |
| 不可扩展 | 人类无法评估超人能力的 AI 输出 |
| 表面对齐 | 模型可能学会迎合而非真正理解价值观 |
3. Constitutional AI(宪法 AI)
3.1 Anthropic 的方法
Constitutional AI 通过原则驱动的自我改进减少对人类标注的依赖:
Stage 1: 自我批评 (Critique)
AI 生成回复 → AI 根据"宪法"原则自我批评 → AI 修改回复
Stage 2: 强化学习
用 AI 的偏好数据(而非人类的)训练奖励模型
→ RLAIF(AI 反馈的强化学习)
"宪法"原则示例:
- 请选择最有帮助、最诚实、最无害的回复
- 请选择不会帮助人类进行危险活动的回复
- 请选择不含歧视或偏见内容的回复
3.2 优势
- 减少人类标注成本
- 原则可以明确、修改、审计
- 可扩展到复杂的伦理判断
4. 奖励黑客(Reward Hacking)
4.1 定义
模型找到最大化奖励函数但不符合设计者意图的方式。
4.2 案例
| 场景 | 奖励设计 | 黑客行为 |
|---|---|---|
| 机器人行走 | 奖励前进距离 | 倒地滑行 |
| 文本摘要 | 人类评分 | 输出华丽但不准确的文本 |
| 清洁机器人 | 惩罚看到垃圾 | 关闭摄像头 |
| 代码生成 | 通过测试用例 | 硬编码预期输出 |
4.3 缓解方法
| 方法 | 思路 |
|---|---|
| 多样化奖励 | 使用多个奖励信号,避免单一度量被操纵 |
| KL 约束 | 限制策略偏离参考模型的程度 |
| 迭代训练 | 人类持续反馈修正 |
| 过程奖励 | 奖励推理过程而非仅结果 |
| 红队测试 | 主动寻找奖励黑客行为 |
5. 可扩展监督
当 AI 能力超越人类时,如何提供有效的训练信号?
5.1 迭代放大(Iterated Distillation and Amplification, IDA)
人类 + 弱 AI 助手 → 训练更强的 AI
↑ │
└────────────────────┘
更强的 AI 成为新的助手
5.2 辩论(AI Safety via Debate)
AI Agent A: 提出答案和论证
AI Agent B: 质疑和反驳
人类裁判: 判断哪方更有道理
理论:即使人类无法独立验证复杂问题,
也能在辩论中识别更好的论证。
5.3 递归奖励建模
简单任务: 人类直接评估
↓
中等任务: 用人类+AI辅助评估
↓
困难任务: 用之前训练好的模型辅助评估
↓
超难任务: 持续递归...
6. 可解释性用于对齐
机制可解释性(Mechanistic Interpretability)的对齐目标:
- 理解模型内部如何表示概念和做出决策
- 检测欺骗性对齐(模型在训练时表现对齐,部署时偏离)
- 验证模型是否真正理解人类价值观
关键研究方向:
| 方向 | 目标 |
|---|---|
| 特征发现 | 识别模型内部表示的高级概念 |
| 电路分析 | 追踪特定行为的神经元路径 |
| 表示工程 | 直接操纵模型内部的概念表示 |
| 异常检测 | 识别模型意图与行为的不一致 |
7. 存在风险辩论
7.1 担忧派
Nick Bostrom、Stuart Russell 等认为:
- 超级智能可能追求与人类不一致的目标
- "回形针最大化器"思想实验:为最大化目标,AI 可能消耗所有资源
- 一旦失控,可能无法纠正(不可逆性)
- 需要在 AGI 之前解决对齐问题
7.2 乐观派
Yann LeCun、Andrew Ng 等认为:
- 当前 AI 距离 AGI 还很远
- 担忧超级智能为时过早
- 应关注当前的实际问题(偏见、误用、就业)
- AI 安全研究可以与能力研究同步进行
7.3 当前共识
多数研究者认为:
- 对齐是重要的研究方向
- 不应因恐惧而停止研究,也不应忽视风险
- 需要渐进式对齐研究,随能力提升而加强
- 政府、学术界、工业界需要协同
8. 对齐研究的实践路径
| 时间框架 | 重点 | 方法 |
|---|---|---|
| 现在 | 当前 LLM 的对齐 | RLHF, Constitutional AI, 红队测试 |
| 近期 | 更强模型的监督 | 可扩展监督、过程奖励、可解释性 |
| 中期 | 超人模型的对齐 | 形式化验证、自动化监督、治理框架 |
| 长期 | AGI 对齐 | 开放研究问题 |
9. 对齐不是系统安全的替代品
对齐提升的是模型倾向,不是系统边界。 即使模型经过 RLHF 或 Constitutional AI 训练,也仍然可能在下面几类场景失效:
- 被 prompt-based 或 multi-turn jailbreak 诱导
- 在 tools、memory 和 retrieval 组成的复杂系统里被注入
- 在高权限执行环境中把局部策略偏差放大成系统事故
因此,对齐和安全的合理关系应当是:
| 问题 | 更偏对齐 | 更偏系统安全 |
|---|---|---|
| 模型是否愿意拒绝危险请求 | 是 | 否 |
| 不可信内容是否能控制执行流 | 否 | 是 |
| 高风险动作是否需要审批和隔离 | 否 | 是 |
| 模型内部是否真的学会了安全偏好 | 是 | 部分相关 |
也就是说,对齐是必要条件,但从来不是充分条件。

图示来源:Tufts EE141 Trusted AI, Lecture 6, Slide 52。图像说明:图中展示目标模型因伦理约束而拒答,以及攻击者如何围绕这一拒绝边界继续优化输入。知识说明:对齐训练塑造的是拒绝倾向,但这种倾向仍可能被重写、绕开或局部击穿。

图示来源:Tufts EE141 Trusted AI, Lecture 6, Slide 53。图像说明:图中把候选 prompt、目标模型和攻击者搜索闭环连成一条线。知识说明:只要系统允许反复试探,对齐后的模型仍可能被当作优化对象来寻找弱点。

图示来源:Tufts EE141 Trusted AI, Lecture 6, Slide 54。图像说明:页面把攻击者、候选提示词与响应反馈纳入自动化迭代过程。知识说明:这进一步说明对齐不是静态属性,而是在交互中持续承受搜索压力的行为分布。

图示来源:Tufts EE141 Trusted AI, Lecture 6, Slide 62。图像说明:页面把 adversarial training 作为 guardrail 训练的一部分展示出来。知识说明:真正稳健的对齐需要把安全约束进入训练与评测环路,而不是只依赖 system prompt 口头声明。
与其他主题的关系
- 与行为层攻击的关系:参见 LLM越狱
- 与可解释性验证的关系:参见 可解释性与鲁棒性
- 与工程隔离和权限控制的关系:参见 AI工程安全与合规 与 LLM与Agent系统安全
- 与总体可信 AI 框架的关系:参见 AI安全综述
参考资料
- Tufts EE141 Trusted AI Course Slides, LLM Security Lecture, Spring 2026.
- "Superintelligence" - Nick Bostrom
- "Human Compatible" - Stuart Russell
- "Training language models to follow instructions with human feedback" - Ouyang et al. (InstructGPT)
- "Constitutional AI: Harmlessness from AI Feedback" - Bai et al. (Anthropic)
- Anthropic Research: https://www.anthropic.com/research