AI 对齐

概述

AI 对齐（AI Alignment）是确保 AI 系统的行为符合人类意图和价值观的研究领域。随着 AI 能力的快速增长，对齐问题从学术讨论变为迫切的工程挑战。

1. 对齐问题的本质

1.1 三个子问题

子问题	含义	挑战
规范问题 (Specification)	如何准确定义我们想要什么？	人类价值观复杂、模糊、矛盾
鲁棒性问题 (Robustness)	如何确保 AI 在新情况下仍遵循规范？	分布偏移、对抗操纵
保障问题 (Assurance)	如何验证 AI 确实对齐？	能力越强越难监督

1.2 核心困难

内对齐 vs 外对齐：

人类意图 ←─── 外对齐 ───→ 训练目标 ←─── 内对齐 ───→ 模型行为

外对齐问题：训练目标是否正确捕捉了人类意图？
内对齐问题：模型是否真正优化了训练目标？还是找到了捷径？

Goodhart 定律：

"当一个度量成为目标时，它就不再是好的度量。"

AI 可能以意想不到的方式最大化奖励，而非实现设计者的真正意图。

2. RLHF（人类反馈的强化学习）

2.1 流程

Step 1: 预训练语言模型（SFT）
  → 大规模文本上自监督预训练
  → 指令数据上监督微调

Step 2: 训练奖励模型 (RM)
  → 收集人类偏好数据：对同一 prompt 的多个回复排序
  → 训练模型预测人类偏好

Step 3: RL 优化 (PPO)
  → 用奖励模型的分数作为奖励
  → PPO 优化策略模型
  → KL 惩罚防止偏离 SFT 模型太远

\[ \mathcal{L}(\theta) = \mathbb{E}_{x \sim D, y \sim \pi_\theta} \left[ r_\phi(x, y) - \beta \cdot \text{KL}(\pi_\theta(y|x) \| \pi_{\text{ref}}(y|x)) \right] \]

2.2 RLHF 的局限

局限	说明
奖励黑客	模型学会操纵奖励模型而非真正改善
标注者偏见	人类标注者的偏好不一定代表"正确"
奖励模型不完美	RM 对分布外输入可能给出错误分数
不可扩展	人类无法评估超人能力的 AI 输出
表面对齐	模型可能学会迎合而非真正理解价值观

3. Constitutional AI（宪法 AI）

3.1 Anthropic 的方法

Constitutional AI 通过原则驱动的自我改进减少对人类标注的依赖：

Stage 1: 自我批评 (Critique)
  AI 生成回复 → AI 根据"宪法"原则自我批评 → AI 修改回复

Stage 2: 强化学习
  用 AI 的偏好数据（而非人类的）训练奖励模型
  → RLAIF（AI 反馈的强化学习）

"宪法"原则示例：

请选择最有帮助、最诚实、最无害的回复
请选择不会帮助人类进行危险活动的回复
请选择不含歧视或偏见内容的回复

3.2 优势

减少人类标注成本
原则可以明确、修改、审计
可扩展到复杂的伦理判断

4. 奖励黑客（Reward Hacking）

4.1 定义

模型找到最大化奖励函数但不符合设计者意图的方式。

4.2 案例

场景	奖励设计	黑客行为
机器人行走	奖励前进距离	倒地滑行
文本摘要	人类评分	输出华丽但不准确的文本
清洁机器人	惩罚看到垃圾	关闭摄像头
代码生成	通过测试用例	硬编码预期输出

4.3 缓解方法

方法	思路
多样化奖励	使用多个奖励信号，避免单一度量被操纵
KL 约束	限制策略偏离参考模型的程度
迭代训练	人类持续反馈修正
过程奖励	奖励推理过程而非仅结果
红队测试	主动寻找奖励黑客行为

5. 可扩展监督

当 AI 能力超越人类时，如何提供有效的训练信号？

5.1 迭代放大（Iterated Distillation and Amplification, IDA）

人类 + 弱 AI 助手 → 训练更强的 AI
        ↑                    │
        └────────────────────┘
        更强的 AI 成为新的助手

5.2 辩论（AI Safety via Debate）

AI Agent A: 提出答案和论证
AI Agent B: 质疑和反驳
人类裁判: 判断哪方更有道理

理论：即使人类无法独立验证复杂问题，
      也能在辩论中识别更好的论证。

5.3 递归奖励建模

简单任务: 人类直接评估
    ↓
中等任务: 用人类+AI辅助评估
    ↓
困难任务: 用之前训练好的模型辅助评估
    ↓
超难任务: 持续递归...

6. 可解释性用于对齐

机制可解释性（Mechanistic Interpretability）的对齐目标：

理解模型内部如何表示概念和做出决策
检测欺骗性对齐（模型在训练时表现对齐，部署时偏离）
验证模型是否真正理解人类价值观

关键研究方向：

方向	目标
特征发现	识别模型内部表示的高级概念
电路分析	追踪特定行为的神经元路径
表示工程	直接操纵模型内部的概念表示
异常检测	识别模型意图与行为的不一致

7. 存在风险辩论

7.1 担忧派

Nick Bostrom、Stuart Russell 等认为：

超级智能可能追求与人类不一致的目标
"回形针最大化器"思想实验：为最大化目标，AI 可能消耗所有资源
一旦失控，可能无法纠正（不可逆性）
需要在 AGI 之前解决对齐问题

7.2 乐观派

Yann LeCun、Andrew Ng 等认为：

当前 AI 距离 AGI 还很远
担忧超级智能为时过早
应关注当前的实际问题（偏见、误用、就业）
AI 安全研究可以与能力研究同步进行

7.3 当前共识

多数研究者认为：

对齐是重要的研究方向
不应因恐惧而停止研究，也不应忽视风险
需要渐进式对齐研究，随能力提升而加强
政府、学术界、工业界需要协同

8. 对齐研究的实践路径

时间框架	重点	方法
现在	当前 LLM 的对齐	RLHF, Constitutional AI, 红队测试
近期	更强模型的监督	可扩展监督、过程奖励、可解释性
中期	超人模型的对齐	形式化验证、自动化监督、治理框架
长期	AGI 对齐	开放研究问题

9. 对齐不是系统安全的替代品

对齐提升的是模型倾向，不是系统边界。 即使模型经过 RLHF 或 Constitutional AI 训练，也仍然可能在下面几类场景失效：

被 prompt-based 或 multi-turn jailbreak 诱导
在 tools、memory 和 retrieval 组成的复杂系统里被注入
在高权限执行环境中把局部策略偏差放大成系统事故

因此，对齐和安全的合理关系应当是：

问题	更偏对齐	更偏系统安全
模型是否愿意拒绝危险请求	是	否
不可信内容是否能控制执行流	否	是
高风险动作是否需要审批和隔离	否	是
模型内部是否真的学会了安全偏好	是	部分相关

也就是说，对齐是必要条件，但从来不是充分条件。

拒绝边界不是绝对边界

图示来源：Tufts EE141 Trusted AI, Lecture 6, Slide 52。图像说明：图中展示目标模型因伦理约束而拒答，以及攻击者如何围绕这一拒绝边界继续优化输入。知识说明：对齐训练塑造的是拒绝倾向，但这种倾向仍可能被重写、绕开或局部击穿。

候选 prompt 搜索

图示来源：Tufts EE141 Trusted AI, Lecture 6, Slide 53。图像说明：图中把候选 prompt、目标模型和攻击者搜索闭环连成一条线。知识说明：只要系统允许反复试探，对齐后的模型仍可能被当作优化对象来寻找弱点。

自动化越狱搜索

图示来源：Tufts EE141 Trusted AI, Lecture 6, Slide 54。图像说明：页面把攻击者、候选提示词与响应反馈纳入自动化迭代过程。知识说明：这进一步说明对齐不是静态属性，而是在交互中持续承受搜索压力的行为分布。

把约束写进训练而不是只写进提示词

图示来源：Tufts EE141 Trusted AI, Lecture 6, Slide 62。图像说明：页面把 adversarial training 作为 guardrail 训练的一部分展示出来。知识说明：真正稳健的对齐需要把安全约束进入训练与评测环路，而不是只依赖 system prompt 口头声明。

与其他主题的关系

与行为层攻击的关系：参见 LLM越狱
与可解释性验证的关系：参见可解释性与鲁棒性
与工程隔离和权限控制的关系：参见 AI工程安全与合规与 LLM与Agent系统安全
与总体可信 AI 框架的关系：参见 AI安全综述

参考资料

Tufts EE141 Trusted AI Course Slides, LLM Security Lecture, Spring 2026.
"Superintelligence" - Nick Bostrom
"Human Compatible" - Stuart Russell
"Training language models to follow instructions with human feedback" - Ouyang et al. (InstructGPT)
"Constitutional AI: Harmlessness from AI Feedback" - Bai et al. (Anthropic)
Anthropic Research: https://www.anthropic.com/research