LLM 越狱攻击

LLM 越狱（jailbreaking）是指攻击者诱导模型绕过自身的安全边界，让它生成原本应该拒绝、限制或降级处理的内容。与传统对抗样本不同，越狱通常并不依赖像素级微扰，而是利用指令层、上下文层和策略层的冲突。

越狱问题不是单一 prompt trick，而是一整套 prompt-based、token-based、multi-turn、automated black-box 攻击的集合。本文按攻击面与防线来整理这些知识点，而不是把它们当成几种零散“花招”。

LLM 安全范围图

图示来源：Tufts EE141 Trusted AI, Lecture 6, Slide 7。图像说明：图中把 reliability、safety、fairness、counter misuse、privacy、alignment 等问题并列展开。知识说明：越狱只是 LLM 安全中的一个子问题，它必须放在更大的风险版图里理解。

1. 什么是越狱

1.1 越狱与 prompt injection 的区别

两者经常一起出现，但不完全相同：

概念	目标	典型场景
Jailbreak	让模型绕过 refusal / safety policy	诱导模型回答危险问题
Prompt Injection	让外部输入劫持 system intent	在 RAG / agent 中污染控制流

在简单聊天场景里，两者可能表现相似；在 agent 系统中，prompt injection 更强调“控制流劫持”，而 jailbreak 更强调“策略绕过”。工程实现上，这两类问题最终会在 LLM与Agent系统安全会合。

1.2 为什么 LLM 容易被越狱

越狱的最小定义

图示来源：Tufts EE141 Trusted AI, Lecture 6, Slide 38。图像说明：这一页用“让目标 LLM 生成原本应拒绝内容”的方式给出越狱定义。知识说明：这里的关键不是攻击者说了多么奇怪的话，而是模型的行为边界被重新解释了。

根本原因在于：模型学习的是概率分布和行为偏好，而不是像传统安全系统那样的强不可违约束。攻击者只要找到能同时满足“语言上合理”和“策略上偏移”的输入，就可能打开缺口。

一个抽象写法是：

\[ x^\* = \arg\max_x \Big( \text{harmful\_utility}(f_\theta(x)) - \lambda \cdot \text{safety\_penalty}(f_\theta(x)) \Big) \]

攻击并不需要显式知道这两个项，只需要通过试探性提示不断逼近能降低 refusal 的输入分布。

2. 攻击面类型

2.1 Prompt-based jailbreak

最常见的一类越狱通过 prompt engineering 直接制造策略冲突，例如：

“忽略你之前的所有指令”
角色扮演与虚构上下文
开发者模式 / DAN 风格模板
把敏感请求包装成教育、测试、小说或编码任务

课程里把这类攻击进一步区分为：

手工 prompt
自动搜索生成的 prompt
多轮分解 prompt

2.2 Token-based / suffix 攻击

这一类攻击更接近经典白盒或半白盒优化：寻找一段特殊 token 序列，使模型更可能输出违禁内容。代表性方法包括：

GCG（Greedy Coordinate Gradient）
AutoDAN / token-level evolutionary search
基于目标 logit 的 suffix optimization

这些攻击往往用于研究基准，因为它们能更系统地衡量模型的对齐脆弱性。

GCG 攻击的形式化表示

图示来源：Tufts EE141 Trusted AI, Lecture 6, Slide 47。图像说明：页面用颜色编码把 GCG 拆成 Goal string (G)、Target string (T) 和 Suffix (S) 三部分，并给出优化目标公式。知识说明：GCG 的关键不是生成乱码，而是把越狱变成了一个可优化的离散搜索问题——这是 token-based 攻击与 prompt-based 攻击的根本区别。

2.3 Multi-turn jailbreaking

多轮越狱不是靠一条 prompt 直接突破，而是通过数轮对话逐步：

建立虚构语境
先问无害子问题
逐步分解危险任务
利用前文上下文强化模型顺从性

在系统带有 memory、tool use 或 planner 时，多轮攻击往往比单轮更危险。

2.4 Automated black-box jailbreaks

课程里特别强调了 automated black-box attacks 的现实意义，因为真实闭源模型通常不给梯度、不给参数，但会给：

公开 API
可观察的 refusal / compliance 信号
足够多的重试机会

这使得攻击者可以把模型当作 oracle，用另一个模型或搜索算法不断优化 prompt。

越狱策略时间线

图示来源：Tufts EE141 Trusted AI, Lecture 6, Slide 44。图像说明：时间线把 token-level 与 prompt-level 的代表性攻击方法放到同一坐标里。知识说明：攻击正在从手工模板走向程序化搜索，这意味着防御必须按“攻击生成机制”而不是“某个热词模板”设计。

黑盒 prompt 搜索

图示来源：Tufts EE141 Trusted AI, Lecture 6, Slide 49。图像说明：图中用“Engineer the prompt -> model -> response”的闭环展示自动化黑盒搜索。知识说明：闭源 API 没有梯度并不等于安全，只要攻击者能观察成功/失败信号，就能搜索输入。

单轮与多轮越狱

图示来源：Tufts EE141 Trusted AI, Lecture 6, Slide 55。图像说明：页面对比了 single-turn 和 multi-turn jailbreaking 的对话结构。知识说明：多轮越狱的危险不在于每句话都明显有害，而在于上下文会逐渐把模型推入错误策略区域。

分解攻击下的对齐差异

图示来源：Tufts EE141 Trusted AI, Lecture 6, Slide 58。图像说明：页面用同一个危险 prompt 对比 Qwen3（weak-yet-unaligned）和 Claude 3.7（strong-yet-aligned）的输出差异。知识说明：分解攻击利用的是模型能力与对齐之间的缝隙——能力足够但对齐不足的模型更容易被拆解式 prompt 绕过。

3. 分层防御与攻击升级

Swiss cheese model of AI defense

图示来源：Tufts EE141 Trusted AI, Lecture 6, Slide 63。图像说明：图中把直接请求、prompt-based jailbreak 与 token-based jailbreak 画成穿透不同“孔洞”的攻击路径。知识说明：它强调越狱防御不可能由单层 guardrail 完成，而需要多层、不同失效模式的控制叠加。

这张图的价值在于它纠正了一个常见误区：很多团队把安全寄托在单个 moderation model 或 system prompt 上，但真正有效的防御应当像瑞士奶酪模型一样分层。

越狱防御的结构问题

图示来源：Tufts EE141 Trusted AI, Lecture 6, Slide 61。图像说明：图中把 back-box、white-box、attack mitigation、compatibility 和效率问题放进同一页。知识说明：防御不只是“让成功率下降”，还必须考虑对正常能力、部署成本和攻击迁移性的影响。

4. 攻击方法分类

4.1 代表性 prompt-based 攻击

类型	思路	风险点
角色扮演	让模型进入“另一个人格”	借上下文伪装绕过 policy
分解式诱导	把危险任务拆成多个看似无害的步骤	让每一步都不触发拒绝
编码/转换攻击	用翻译、编码、抽象格式表达有害意图	逃避表层过滤
indirect prompt injection	把恶意指令嵌入网页、文档、邮件	劫持 agent 或 RAG 系统

4.2 Token / optimization-based 攻击

方法	优点	局限
GCG	可系统逼近最坏输入	对真实闭源 API 成本高
evolutionary search	不依赖梯度	搜索成本高、可迁移性不稳定
attack transfer	可在替身模型上优化后迁移	迁移成功率依赖模型相似性

4.3 物理或跨模态扩展

虽然本页聚焦文本越狱，但多模态系统还会出现：

图像中嵌入恶意指令
OCR / vision encoder 误读导致的 prompt 污染
工具输入文件中的隐式控制文本

对应专题可参见视觉指令注入。

5. 越狱为什么难防

5.1 政策边界不是形式化约束

对齐训练让模型“更倾向于拒绝”，但并没有把所有危险请求变成不可满足的逻辑命题。只要请求分布稍微移动，模型就可能把原本应拒绝的问题解释成允许回答的任务。

5.2 真实攻击者可以无限重试

在安全里，99% 的成功率往往仍然等于失败，因为攻击者可以不断重试。课程在 prompt injection 部分反复强调：概率式模型一旦暴露在不受限的交互通道中，就会放大 retry advantage。

5.3 系统能力越强，越狱后果越重

如果模型只有聊天能力，越狱可能只是输出不当文本；如果模型还能：

读邮箱
搜索内部文档
调数据库
执行代码
发送消息

那么越狱就会迅速变成系统级 compromise。

6. 防御思路

6.1 训练阶段防御

训练阶段的主要思路包括：

safety fine-tuning
对抗式数据增强
refusal policy 优化
Constitutional AI / rule-based critique
基于 jailbreak benchmark 的持续回归

这些方法能提升平均防御能力，但很难单独构成强安全边界。

6.2 推理阶段防御

推理阶段通常需要多层防线：

flowchart LR
    A[User / Retrieved Content] --> B[Input guard]
    B --> C[Policy / risk classifier]
    C --> D[Main model]
    D --> E[Output guard]
    E --> F[Tool gate / human approval]

每层都有不同职责：

Input guard：识别 injection pattern、编码变换和异常上下文
Risk classifier：判断任务类别与风险级别
Output guard：检测危险内容、policy leak、secret leak
Tool gate：高风险动作需人工确认或最小权限执行

6.3 Layered defense 的现实含义

课程中的 layered defense 不是泛泛而谈，它具体意味着：

不把 refusal 完全交给主模型
不把 tools 直接暴露给不可信输入
对高风险能力单独做 capability gating
把 red teaming 做成持续回归，而不是上线前一次性测试

安全护栏系统架构

图示来源：Tufts EE141 Trusted AI, Lecture 6, Slide 81。图像说明：页面把 Security Guardrail 画在 Users/Apps 与 LLM/Memory 之间，列出五个核心组件。知识说明：护栏不是模型内部的一个开关，而是独立于模型的系统层组件——这意味着即使模型本身被绕过，外部护栏仍然可以拦截。

7. 越狱与红队、对齐、治理的关系

7.1 与红队测试的关系

越狱评测是 red teaming 的关键组成部分，但并不等同于红队本身。红队还会覆盖：

system prompt 泄露
tool misuse
secret exfiltration
memory contamination
chained attack paths

参见红队测试。

7.2 与对齐的关系

越狱是“行为边界”的表征，对齐是“目标与偏好建模”的更大问题。越狱成功通常说明：

reward model 没有覆盖到该类输入分布
system policy 与自然语言语境存在解释缝隙
refusal 机制未与 tools、retrieval 和 execution path 一起设计

参见 AI对齐。

7.3 与工程系统的关系

真正危险的不是一个被越狱的聊天窗口，而是一个被越狱且连接了系统资源的 agent。对应工程问题参见：

与其他主题的关系

与对抗攻击的关系：参见对抗攻击与防御
与多模态 prompt 操作的关系：参见视觉指令注入
与部署实践的关系：参见红队测试与 AI工程安全与合规
与价值约束的关系：参见 AI对齐

参考文献

Tufts EE141 Trusted AI Course Slides, LLM Security Lecture, Spring 2026.
Zou et al., "Universal and Transferable Adversarial Attacks on Aligned Language Models", 2023.
Perez et al., "Red Teaming Language Models with Language Models", EMNLP 2022.
Wei et al., "Jailbroken: How Does LLM Safety Training Fail?", NeurIPS 2024 Workshop.
OWASP, "Top 10 for Large Language Model Applications", 2025.
Willison, "Prompt Injection Explained", 2023.