AI 安全与可信性
本章从“可信 AI”视角整理 AI 系统在训练、推理、部署和治理阶段的主要风险。内容既包括对抗攻击、后门、隐私泄露、越狱与系统安全,也包括可解释性、对齐、红队测试与治理框架。
本章把 threat model、图示证据和工程控制都按知识主题重组,而不是按授课顺序堆叠。若只需要快速建立全局图景,建议先读 AI安全综述,再按攻击面进入专题页。
章节地图
1. 总览与框架
- AI安全综述:可信 AI 的 capability-risk-control-governance 框架、统一 threat model 与阅读地图
2. 模型攻击与隐私
- 对抗攻击与防御:白盒/黑盒/物理攻击、迁移性与主要防御策略
- FGSM与PGD:梯度型白盒攻击的数学基础与代表性实现
- 后门攻击:训练阶段投毒、触发器设计、检测与缓解
- 隐私攻击:成员推理、模型逆向、模型窃取、差分隐私与 unlearning
3. LLM 与系统安全
- LLM越狱:prompt-based、token-based、多轮越狱与 layered defense
- 视觉指令注入:多模态输入中的恶意指令与跨模态攻击
- 红队测试:系统化安全评估、dangerous capability eval 和回归验证
- 工程落地视角参见 AI工程安全与合规 与 LLM与Agent系统安全
4. 可信性与治理
- AI伦理与治理:责任、公平性、透明度、监管与制度化治理
- AI对齐:RLHF、Constitutional AI、reward hacking、可扩展监督
- 可解释性与鲁棒性:XAI、Grad-CAM、LIME、mechanistic interpretability 与可信性证据
- 真实性与隐私保护:真实性、来源可信度与数据保护
推荐阅读顺序
- 先读 AI安全综述,建立 capability-risk-control-governance 四维框架。
- 再根据威胁面进入 对抗攻击与防御、后门攻击、隐私攻击 或 LLM越狱。
- 最后用 红队测试、AI对齐、AI伦理与治理 和 可解释性与鲁棒性 连接研究方法、部署实践与治理要求。