Skip to content

刘杰夫的人工智能学习笔记

对抗性安全

对抗性安全

对抗性安全研究AI系统面临的攻击威胁与防御策略，是保障AI系统可靠运行的关键领域。

本章内容：

对抗攻击与防御 — 攻击分类、对抗训练、鲁棒性认证
FGSM与PGD — 梯度攻击方法、迭代攻击、对抗样本生成
LLM越狱 — 提示注入、越狱攻击、安全对齐绕过
视觉指令注入 — 多模态攻击、图像嵌入恶意指令
红队测试 — 系统性安全评估、攻击模拟
后门攻击 — 数据投毒、触发器设计、后门检测

评论 #