隐私攻击与防御

AI 隐私问题的核心不是“模型里有没有个人信息”这么简单，而是模型输出、梯度、嵌入和检索链路会不会泄露本不该暴露的信息。把问题拆成成员推理、模型逆向、模型窃取、训练数据抽取、联邦学习泄露与差分隐私防御几个层次，会更接近真实攻击面。

本文沿用这种结构，但补充了 LLM、RAG 和 machine unlearning 的工程背景。和真实性与隐私保护不同，这里更关注“攻击者如何获得信息”以及“部署者如何降低泄露面”。

1. 攻击目标与信息面

隐私攻击通常关心四个问题：

攻击目标	攻击者问题	常见接口
成员身份	某条样本是否出现在训练集中？	分类 API、embedding API
敏感属性	模型是否暴露了未显式给出的属性？	预测分数、表示向量
样本内容	能否重建输入或训练文本？	logits、生成接口、梯度
模型本身	能否复制模型行为或参数？	黑盒查询、蒸馏接口

这类问题都可以理解为信息泄露：

\[ I(\text{observed output}; \text{sensitive variable}) > 0 \]

只要攻击者能观察到的输出与敏感变量存在统计依赖，就可能构造攻击器。

隐私攻击分类树

图示来源：Tufts EE141 Trusted AI, Lecture 5, Slide 4。图像说明：页面用树形图把隐私攻击分为成员推理、模型逆向、模型窃取和属性推理四类。知识说明：隐私攻击不是一个单一问题，而是至少四条独立攻击面。

2. 成员推理攻击

2.1 基本思想

成员推理攻击定义

图示来源：Tufts EE141 Trusted AI, Lecture 5, Slide 6。图像说明：页面用训练数据集成员身份判定来定义 MIA。知识说明：成员推理的本质不是还原样本内容，而是利用输出分布中的“熟悉感”去推断训练参与情况。

成员推理攻击（Membership Inference Attack, MIA）的目标，是判断某个样本 \(x\) 是否参与过模型训练。一个直观原因是：模型往往对训练样本更自信、更稳定，对未见样本更不确定。

攻击器通常利用以下特征：

最大置信度是否异常高
熵是否偏低
margin 是否明显更大
对轻微扰动是否更稳定

2.2 Shadow training 攻击

Shadow training attack

图示来源：Tufts EE141 Trusted AI, Lecture 5, Slide 11。图像说明：攻击者用与目标模型相似分布的数据训练多个 shadow model，再用这些模型的 in/out 输出训练攻击分类器。知识说明：这说明即使攻击者拿不到目标模型参数，只要能黑盒查询，也可能恢复“成员”与“非成员”的输出统计差异。

Shadow training 的基本步骤是：

收集与目标任务相似的数据分布
训练多个替身模型（shadow models）
记录替身模型在成员样本与非成员样本上的输出
用这些输出训练二分类攻击器
把攻击器迁移到目标模型

2.3 形式化表达

若目标模型输出为概率向量 \(p(x)\)，攻击器可建模为：

\[ a(x, p(x)) \to \{0,1\} \]

其中 1 表示“成员”，0 表示“非成员”。攻击效果通常用 attack accuracy、AUC 或 TPR@FPR 来衡量。

基于置信度的成员推理流程

图示来源：Tufts EE141 Trusted AI, Lecture 5, Slide 16。图像说明：页面用流程图展示如何通过模型对输入的置信度得分判断该样本是否属于训练集。知识说明：模型对训练样本通常更自信这一现象是成员推理攻击成立的核心前提。

2.4 为什么成员推理有效

过拟合会增大训练样本与测试样本之间的置信度差异
长尾类、罕见样本和敏感子群体更容易留下记忆
输出越丰富，攻击器可利用的信息越多
生成模型和 embedding model 也可能泄露 membership signal

3. 属性推理与模型逆向

3.1 属性推理

属性推理（Attribute Inference）假设攻击者已知样本的大部分属性，只想恢复缺失的敏感字段，例如：

已知用户消费记录，推断年龄或健康状态
已知简历与问答结果，推断性别或种族
已知 embedding，推断是否属于特定群体

这种攻击往往依赖输出表示中的相关性，而不是逐字记忆。

3.2 模型逆向

模型逆向攻击示意

图示来源：Tufts EE141 Trusted AI, Lecture 5, Slide 19。图像说明：图中将恢复图像与训练目标类别并列展示。知识说明：模型逆向强调的是“类别原型或局部样本特征能否被重建”，这与成员推理不同，但同样说明模型输出携带过多训练信息。

模型逆向（Model Inversion）更进一步，试图直接重建训练样本或其代表性原型。经典做法是：

\[ x^\* = \arg\max_x f_\theta(x)_y - \lambda R(x) \]

其中 \(f_\theta(x)_y\) 表示目标类 \(y\) 的输出分数，\(R(x)\) 用于约束图像或文本的先验。

在视觉任务中，这类方法可能恢复“平均脸”或类别原型；在语言模型中，则可能恢复训练文本片段、PII 模式或模板化回答。

4. 模型窃取与训练数据抽取

4.1 模型窃取

MLaaS 攻击面

图示来源：Tufts EE141 Trusted AI, Lecture 5, Slide 21。图像说明：页面把 Machine Learning as a Service 作为现实攻击面展示。知识说明：一旦模型通过 API 形式商品化，黑盒查询就会同时服务于窃取、对抗样本迁移和隐私探测。

模型窃取的核心思路

图示来源：Tufts EE141 Trusted AI, Lecture 5, Slide 22。图像说明：页面把训练数据、目标模型和替身模型的关系画成一个提取流程。知识说明：模型窃取并不要求恢复原始参数，只要能逼近决策边界，就已经足以构造高价值替身模型。

模型窃取的三重危害

图示来源：Tufts EE141 Trusted AI, Lecture 5, Slide 23。图像说明：页面用三列对比展示模型窃取的后果：知识产权损失、训练数据泄露和攻击面扩大。知识说明：模型窃取不只是经济问题——被窃取的模型还可以被用来生成对抗样本。

模型窃取（Model Extraction）关注”把服务商模型复制出来”。攻击者的目标可能是：

复制决策边界，规避付费 API
用替身模型提升黑盒对抗攻击成功率
为进一步的数据抽取或越狱探索提供本地代理模型

常见手段包括：

合成查询与标签蒸馏
通过高置信度样本恢复局部边界
对线性/浅层模型求解参数

4.2 训练数据抽取

GPT-2 训练数据抽取

图示来源：Tufts EE141 Trusted AI, Lecture 5, Slide 29。图像说明：图中总结了从 GPT-2 中抽取训练文本的典型路径。知识说明：只要语料中存在高重复、低熵或模板化片段，生成模型就可能在特定 prompt 下逐字复现它们。

ChatGPT 数据抽取示意

图示来源：Tufts EE141 Trusted AI, Lecture 5, Slide 44。图像说明：页面展示多轮 prompt、验证与多数投票如何配合完成 ChatGPT 风格系统的数据抽取。知识说明：现代抽取攻击已经不只是“试几个 prompt”，而是一个完整的采样、过滤和验证流程。

大型语言模型的 data extraction 则关心：训练语料中的原文、PII 或稀有文本片段是否会被 verbatim 生成出来。高风险场景包括：

罕见字符串、token 序列或 API key 模式
邮件、电话、地址等格式化信息
Web-scale 语料中的重复模板

课程里特别强调了：

GPT-2 / GPT-Neo 类模型上的 memorization 攻击
ChatGPT 风格系统中的 data extraction
RAG 中“检索结果 + prompt”共同泄露知识库内容

5. LLM、RAG 与 embedding 隐私

5.1 RAG 风险并不只来自模型参数

RAG 系统的隐私风险往往不在 base model，而在于：

检索库中混入了敏感文档
用户可以构造跨文档枚举型查询
retrieval policy 没有细粒度权限控制
缓存、日志或会话记忆记录了敏感上下文

因此 RAG 隐私防护必须和 AI工程安全与合规以及 LLM与Agent系统安全一起看。

5.2 Embedding attack

embedding model 并不天然安全。若向量空间保留了大量可分离属性，攻击者就能：

对敏感属性训练 probe
做 nearest-neighbor linkage
用生成模型从 embedding 近似恢复原始内容

5.3 RLHF 与会话系统的额外风险

在 RLHF、chat log 收集和安全回归阶段，还会引入新的隐私面：

训练偏好模型时记录用户敏感反馈
多轮会话日志包含未脱敏上下文
在线评估与回归数据混合了生产用户数据

6. 联邦学习与分布式训练泄露

联邦学习常被当作隐私增强技术，但它并不是“天然安全”。当攻击者能看到梯度或参数更新时，可能发生：

梯度泄露（gradient leakage）
source inference
客户端成员推理
中心聚合器对单客户端的反推

一个典型风险是：单步梯度本身就可能编码训练样本的局部信息，因此“数据不出本地”并不自动等于“信息不外泄”。

集中式训练的隐私问题

图示来源：Tufts EE141 Trusted AI, Lecture 5, Slide 74。图像说明：页面从集中式训练的数据汇聚方式出发，说明隐私风险如何在单点集中。知识说明：联邦学习之所以被提出，不是因为它天然安全，而是因为中心化训练的泄露面太大。

7. 差分隐私与训练级缓解

7.1 差分隐私定义

差分隐私（Differential Privacy, DP）要求：相邻数据集 \(D\) 与 \(D'\) 在加入或删除一条记录后，机制输出分布仍应接近：

\[ \Pr[\mathcal{M}(D) \in S] \le e^\epsilon \Pr[\mathcal{M}(D') \in S] + \delta \]

其中 \(\epsilon\) 是隐私预算，越小表示单条样本对输出的影响越受限。

7.2 DP-SGD

DP-SGD algorithm

图示来源：Tufts EE141 Trusted AI, Lecture 5, Slide 71。图像说明：DP-SGD 算法在标准 SGD 之外加入逐样本梯度裁剪、噪声注入和 privacy accountant。知识说明：这张图提醒我们，DP 不是“训练后再打补丁”，而是训练目标、优化过程和预算监控一起设计。

DP-SGD 的关键流程是：

计算每个样本梯度 \(g_i\)
做梯度裁剪：\(\bar{g}_i = g_i / \max(1, \|g_i\|_2/C)\)
聚合后加入高斯噪声
用 accountant 跟踪 \((\epsilon, \delta)\) 消耗

其优点是有明确的隐私保证，缺点则包括：

会降低模型精度，尤其是小数据集或长尾场景
训练成本更高
对大模型和多阶段训练流程的预算管理更复杂

差分隐私机制总览

图示来源：Tufts EE141 Trusted AI, Lecture 5, Slide 67。图像说明：页面把随机化机制、拉普拉斯/高斯机制和实际应用场景放在一起。知识说明：DP 不是某个单一算法名字，而是一套围绕可证明泄露上界构建的设计原则。

8. 部署级缓解：不要只盯着训练

真正有效的隐私防护通常是多层的：

层次	典型措施	目标
数据层	PII 检测、最小采集、脱敏	降低模型可记忆的敏感信息总量
训练层	DP-SGD、正则化、early stopping	降低 memorization 与过拟合
接口层	限制 logits / top-k 输出、速率限制	减少攻击者可观测信息
系统层	权限隔离、日志脱敏、访问审计	控制辅助泄露渠道
事后治理	machine unlearning、数据删除工作流	响应合规要求与用户删除请求

8.1 Machine unlearning

课程后半部分提到 unlearning，重点不是“数学上彻底忘掉”已经实现，而是：

如何在不完全重训的前提下移除特定数据影响
如何对 RAG index、cache、fine-tuning data 做一致性删除
如何验证删除后模型不再暴露相关信息

对 LLM 来说，unlearning 很难独立成立，往往需要与索引刷新、日志清理和评测回归联合完成。

LLM unlearning 的系统视角

图示来源：Tufts EE141 Trusted AI, Lecture 5, Slide 82。图像说明：页面把 prompt tuning、parameter-efficient unlearning 与评测流程并列呈现。知识说明：删除请求不是一句“忘掉它”就能完成，而是训练、索引和部署链路的协同变更。

隐私策略与制度约束

图示来源：Tufts EE141 Trusted AI, Lecture 5, Slide 85。图像说明：图中用隐私政策和合规文本作为结尾。知识说明：隐私防护最终会回到组织制度，因为很多泄露来自默认收集、默认保留和默认共享，而不是某个单点模型漏洞。

9. 继续细化本主题时的结构建议

如果你要把本主题继续往下拆，比较合理的子线是：

训练级泄露：MIA、inversion、extraction
系统级泄露：RAG、session memory、logs、cache
保护机制：DP、federated learning、unlearning
评测方法：shadow models、attack benchmarks、privacy budget tracking

目前与课程内容强相关的专题页包括：

与其他主题的关系

与总体框架的关系：参见 AI安全综述
与训练阶段攻击的关系：参见后门攻击与对抗攻击与防御
与 LLM 部署风险的关系：参见 LLM越狱与 AI工程安全与合规
与治理和合规的关系：参见 AI伦理与治理

参考文献

Tufts EE141 Trusted AI Course Slides, Privacy Lecture, Spring 2026.
Shokri et al., "Membership Inference Attacks Against Machine Learning Models", IEEE S&P 2017.
Fredrikson et al., "Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures", CCS 2015.
Tramèr et al., "Stealing Machine Learning Models via Prediction APIs", USENIX Security 2016.
Carlini et al., "Extracting Training Data from Large Language Models", USENIX Security 2021.
Abadi et al., "Deep Learning with Differential Privacy", CCS 2016.