对抗性安全 对抗性安全研究AI系统面临的攻击威胁与防御策略,是保障AI系统可靠运行的关键领域。 本章内容: 对抗攻击与防御 — 攻击分类、对抗训练、鲁棒性认证 FGSM与PGD — 梯度攻击方法、迭代攻击、对抗样本生成 LLM越狱 — 提示注入、越狱攻击、安全对齐绕过 视觉指令注入 — 多模态攻击、图像嵌入恶意指令 红队测试 — 系统性安全评估、攻击模拟 后门攻击 — 数据投毒、触发器设计、后门检测 评论 #