跳转至

AI 安全与可信性

本章从“可信 AI”视角整理 AI 系统在训练、推理、部署和治理阶段的主要风险。内容既包括对抗攻击、后门、隐私泄露、越狱与系统安全,也包括可解释性、对齐、红队测试与治理框架。

本章把 threat model、图示证据和工程控制都按知识主题重组,而不是按授课顺序堆叠。若只需要快速建立全局图景,建议先读 AI安全综述,再按攻击面进入专题页。

章节地图

1. 总览与框架

  • AI安全综述:可信 AI 的 capability-risk-control-governance 框架、统一 threat model 与阅读地图

2. 模型攻击与隐私

  • 对抗攻击与防御:白盒/黑盒/物理攻击、迁移性与主要防御策略
  • FGSM与PGD:梯度型白盒攻击的数学基础与代表性实现
  • 后门攻击:训练阶段投毒、触发器设计、检测与缓解
  • 隐私攻击:成员推理、模型逆向、模型窃取、差分隐私与 unlearning

3. LLM 与系统安全

4. 可信性与治理

推荐阅读顺序

  1. 先读 AI安全综述,建立 capability-risk-control-governance 四维框架。
  2. 再根据威胁面进入 对抗攻击与防御后门攻击隐私攻击LLM越狱
  3. 最后用 红队测试AI对齐AI伦理与治理可解释性与鲁棒性 连接研究方法、部署实践与治理要求。

评论 #