跳转至

刘杰夫的人工智能学习笔记

AI 安全与可信性

AI 安全与可信性

本章从“可信 AI”视角整理 AI 系统在训练、推理、部署和治理阶段的主要风险。内容既包括对抗攻击、后门、隐私泄露、越狱与系统安全，也包括可解释性、对齐、红队测试与治理框架。

本章把 threat model、图示证据和工程控制都按知识主题重组，而不是按授课顺序堆叠。若只需要快速建立全局图景，建议先读 AI安全综述，再按攻击面进入专题页。

章节地图

1. 总览与框架

AI安全综述：可信 AI 的 capability-risk-control-governance 框架、统一 threat model 与阅读地图

2. 模型攻击与隐私

对抗攻击与防御：白盒/黑盒/物理攻击、迁移性与主要防御策略
FGSM与PGD：梯度型白盒攻击的数学基础与代表性实现
后门攻击：训练阶段投毒、触发器设计、检测与缓解
隐私攻击：成员推理、模型逆向、模型窃取、差分隐私与 unlearning

3. LLM 与系统安全

LLM越狱：prompt-based、token-based、多轮越狱与 layered defense
视觉指令注入：多模态输入中的恶意指令与跨模态攻击
红队测试：系统化安全评估、dangerous capability eval 和回归验证
工程落地视角参见 AI工程安全与合规与 LLM与Agent系统安全

4. 可信性与治理

AI伦理与治理：责任、公平性、透明度、监管与制度化治理
AI对齐：RLHF、Constitutional AI、reward hacking、可扩展监督
可解释性与鲁棒性：XAI、Grad-CAM、LIME、mechanistic interpretability 与可信性证据
真实性与隐私保护：真实性、来源可信度与数据保护

推荐阅读顺序

先读 AI安全综述，建立 capability-risk-control-governance 四维框架。
再根据威胁面进入对抗攻击与防御、后门攻击、隐私攻击或 LLM越狱。
最后用红队测试、AI对齐、AI伦理与治理和可解释性与鲁棒性连接研究方法、部署实践与治理要求。

评论 #