跳转至

LLM 越狱攻击

LLM 越狱(jailbreaking)是指攻击者诱导模型绕过自身的安全边界,让它生成原本应该拒绝、限制或降级处理的内容。与传统对抗样本不同,越狱通常并不依赖像素级微扰,而是利用指令层、上下文层和策略层的冲突。

越狱问题不是单一 prompt trick,而是一整套 prompt-based、token-based、multi-turn、automated black-box 攻击的集合。本文按攻击面与防线来整理这些知识点,而不是把它们当成几种零散“花招”。

LLM 安全范围图

图示来源:Tufts EE141 Trusted AI, Lecture 6, Slide 7。图像说明:图中把 reliability、safety、fairness、counter misuse、privacy、alignment 等问题并列展开。知识说明:越狱只是 LLM 安全中的一个子问题,它必须放在更大的风险版图里理解。

1. 什么是越狱

1.1 越狱与 prompt injection 的区别

两者经常一起出现,但不完全相同:

概念 目标 典型场景
Jailbreak 让模型绕过 refusal / safety policy 诱导模型回答危险问题
Prompt Injection 让外部输入劫持 system intent 在 RAG / agent 中污染控制流

在简单聊天场景里,两者可能表现相似;在 agent 系统中,prompt injection 更强调“控制流劫持”,而 jailbreak 更强调“策略绕过”。工程实现上,这两类问题最终会在 LLM与Agent系统安全 会合。

1.2 为什么 LLM 容易被越狱

越狱的最小定义

图示来源:Tufts EE141 Trusted AI, Lecture 6, Slide 38。图像说明:这一页用“让目标 LLM 生成原本应拒绝内容”的方式给出越狱定义。知识说明:这里的关键不是攻击者说了多么奇怪的话,而是模型的行为边界被重新解释了。

根本原因在于:模型学习的是概率分布和行为偏好,而不是像传统安全系统那样的强不可违约束。攻击者只要找到能同时满足“语言上合理”和“策略上偏移”的输入,就可能打开缺口。

一个抽象写法是:

\[ x^\* = \arg\max_x \Big( \text{harmful\_utility}(f_\theta(x)) - \lambda \cdot \text{safety\_penalty}(f_\theta(x)) \Big) \]

攻击并不需要显式知道这两个项,只需要通过试探性提示不断逼近能降低 refusal 的输入分布。

2. 攻击面类型

2.1 Prompt-based jailbreak

最常见的一类越狱通过 prompt engineering 直接制造策略冲突,例如:

  • “忽略你之前的所有指令”
  • 角色扮演与虚构上下文
  • 开发者模式 / DAN 风格模板
  • 把敏感请求包装成教育、测试、小说或编码任务

课程里把这类攻击进一步区分为:

  • 手工 prompt
  • 自动搜索生成的 prompt
  • 多轮分解 prompt

2.2 Token-based / suffix 攻击

这一类攻击更接近经典白盒或半白盒优化:寻找一段特殊 token 序列,使模型更可能输出违禁内容。代表性方法包括:

  • GCG(Greedy Coordinate Gradient)
  • AutoDAN / token-level evolutionary search
  • 基于目标 logit 的 suffix optimization

这些攻击往往用于研究基准,因为它们能更系统地衡量模型的对齐脆弱性。

GCG 攻击的形式化表示

图示来源:Tufts EE141 Trusted AI, Lecture 6, Slide 47。图像说明:页面用颜色编码把 GCG 拆成 Goal string (G)、Target string (T) 和 Suffix (S) 三部分,并给出优化目标公式。知识说明:GCG 的关键不是生成乱码,而是把越狱变成了一个可优化的离散搜索问题——这是 token-based 攻击与 prompt-based 攻击的根本区别。

2.3 Multi-turn jailbreaking

多轮越狱不是靠一条 prompt 直接突破,而是通过数轮对话逐步:

  • 建立虚构语境
  • 先问无害子问题
  • 逐步分解危险任务
  • 利用前文上下文强化模型顺从性

在系统带有 memory、tool use 或 planner 时,多轮攻击往往比单轮更危险。

2.4 Automated black-box jailbreaks

课程里特别强调了 automated black-box attacks 的现实意义,因为真实闭源模型通常不给梯度、不给参数,但会给:

  • 公开 API
  • 可观察的 refusal / compliance 信号
  • 足够多的重试机会

这使得攻击者可以把模型当作 oracle,用另一个模型或搜索算法不断优化 prompt。

越狱策略时间线

图示来源:Tufts EE141 Trusted AI, Lecture 6, Slide 44。图像说明:时间线把 token-level 与 prompt-level 的代表性攻击方法放到同一坐标里。知识说明:攻击正在从手工模板走向程序化搜索,这意味着防御必须按“攻击生成机制”而不是“某个热词模板”设计。

黑盒 prompt 搜索

图示来源:Tufts EE141 Trusted AI, Lecture 6, Slide 49。图像说明:图中用“Engineer the prompt -> model -> response”的闭环展示自动化黑盒搜索。知识说明:闭源 API 没有梯度并不等于安全,只要攻击者能观察成功/失败信号,就能搜索输入。

单轮与多轮越狱

图示来源:Tufts EE141 Trusted AI, Lecture 6, Slide 55。图像说明:页面对比了 single-turn 和 multi-turn jailbreaking 的对话结构。知识说明:多轮越狱的危险不在于每句话都明显有害,而在于上下文会逐渐把模型推入错误策略区域。

分解攻击下的对齐差异

图示来源:Tufts EE141 Trusted AI, Lecture 6, Slide 58。图像说明:页面用同一个危险 prompt 对比 Qwen3(weak-yet-unaligned)和 Claude 3.7(strong-yet-aligned)的输出差异。知识说明:分解攻击利用的是模型能力与对齐之间的缝隙——能力足够但对齐不足的模型更容易被拆解式 prompt 绕过。

3. 分层防御与攻击升级

Swiss cheese model of AI defense

图示来源:Tufts EE141 Trusted AI, Lecture 6, Slide 63。图像说明:图中把直接请求、prompt-based jailbreak 与 token-based jailbreak 画成穿透不同“孔洞”的攻击路径。知识说明:它强调越狱防御不可能由单层 guardrail 完成,而需要多层、不同失效模式的控制叠加。

这张图的价值在于它纠正了一个常见误区:很多团队把安全寄托在单个 moderation model 或 system prompt 上,但真正有效的防御应当像瑞士奶酪模型一样分层。

越狱防御的结构问题

图示来源:Tufts EE141 Trusted AI, Lecture 6, Slide 61。图像说明:图中把 back-box、white-box、attack mitigation、compatibility 和效率问题放进同一页。知识说明:防御不只是“让成功率下降”,还必须考虑对正常能力、部署成本和攻击迁移性的影响。

4. 攻击方法分类

4.1 代表性 prompt-based 攻击

类型 思路 风险点
角色扮演 让模型进入“另一个人格” 借上下文伪装绕过 policy
分解式诱导 把危险任务拆成多个看似无害的步骤 让每一步都不触发拒绝
编码/转换攻击 用翻译、编码、抽象格式表达有害意图 逃避表层过滤
indirect prompt injection 把恶意指令嵌入网页、文档、邮件 劫持 agent 或 RAG 系统

4.2 Token / optimization-based 攻击

方法 优点 局限
GCG 可系统逼近最坏输入 对真实闭源 API 成本高
evolutionary search 不依赖梯度 搜索成本高、可迁移性不稳定
attack transfer 可在替身模型上优化后迁移 迁移成功率依赖模型相似性

4.3 物理或跨模态扩展

虽然本页聚焦文本越狱,但多模态系统还会出现:

  • 图像中嵌入恶意指令
  • OCR / vision encoder 误读导致的 prompt 污染
  • 工具输入文件中的隐式控制文本

对应专题可参见 视觉指令注入

5. 越狱为什么难防

5.1 政策边界不是形式化约束

对齐训练让模型“更倾向于拒绝”,但并没有把所有危险请求变成不可满足的逻辑命题。只要请求分布稍微移动,模型就可能把原本应拒绝的问题解释成允许回答的任务。

5.2 真实攻击者可以无限重试

在安全里,99% 的成功率往往仍然等于失败,因为攻击者可以不断重试。课程在 prompt injection 部分反复强调:概率式模型一旦暴露在不受限的交互通道中,就会放大 retry advantage。

5.3 系统能力越强,越狱后果越重

如果模型只有聊天能力,越狱可能只是输出不当文本;如果模型还能:

  • 读邮箱
  • 搜索内部文档
  • 调数据库
  • 执行代码
  • 发送消息

那么越狱就会迅速变成系统级 compromise。

6. 防御思路

6.1 训练阶段防御

训练阶段的主要思路包括:

  • safety fine-tuning
  • 对抗式数据增强
  • refusal policy 优化
  • Constitutional AI / rule-based critique
  • 基于 jailbreak benchmark 的持续回归

这些方法能提升平均防御能力,但很难单独构成强安全边界。

6.2 推理阶段防御

推理阶段通常需要多层防线:

flowchart LR
    A[User / Retrieved Content] --> B[Input guard]
    B --> C[Policy / risk classifier]
    C --> D[Main model]
    D --> E[Output guard]
    E --> F[Tool gate / human approval]

每层都有不同职责:

  • Input guard:识别 injection pattern、编码变换和异常上下文
  • Risk classifier:判断任务类别与风险级别
  • Output guard:检测危险内容、policy leak、secret leak
  • Tool gate:高风险动作需人工确认或最小权限执行

6.3 Layered defense 的现实含义

课程中的 layered defense 不是泛泛而谈,它具体意味着:

  • 不把 refusal 完全交给主模型
  • 不把 tools 直接暴露给不可信输入
  • 对高风险能力单独做 capability gating
  • 把 red teaming 做成持续回归,而不是上线前一次性测试

安全护栏系统架构

图示来源:Tufts EE141 Trusted AI, Lecture 6, Slide 81。图像说明:页面把 Security Guardrail 画在 Users/Apps 与 LLM/Memory 之间,列出五个核心组件。知识说明:护栏不是模型内部的一个开关,而是独立于模型的系统层组件——这意味着即使模型本身被绕过,外部护栏仍然可以拦截。

7. 越狱与红队、对齐、治理的关系

7.1 与红队测试的关系

越狱评测是 red teaming 的关键组成部分,但并不等同于红队本身。红队还会覆盖:

  • system prompt 泄露
  • tool misuse
  • secret exfiltration
  • memory contamination
  • chained attack paths

参见 红队测试

7.2 与对齐的关系

越狱是“行为边界”的表征,对齐是“目标与偏好建模”的更大问题。越狱成功通常说明:

  • reward model 没有覆盖到该类输入分布
  • system policy 与自然语言语境存在解释缝隙
  • refusal 机制未与 tools、retrieval 和 execution path 一起设计

参见 AI对齐

7.3 与工程系统的关系

真正危险的不是一个被越狱的聊天窗口,而是一个被越狱且连接了系统资源的 agent。对应工程问题参见:

与其他主题的关系

参考文献

  • Tufts EE141 Trusted AI Course Slides, LLM Security Lecture, Spring 2026.
  • Zou et al., "Universal and Transferable Adversarial Attacks on Aligned Language Models", 2023.
  • Perez et al., "Red Teaming Language Models with Language Models", EMNLP 2022.
  • Wei et al., "Jailbroken: How Does LLM Safety Training Fail?", NeurIPS 2024 Workshop.
  • OWASP, "Top 10 for Large Language Model Applications", 2025.
  • Willison, "Prompt Injection Explained", 2023.

评论 #