AI 伦理与治理
概述
AI 系统的广泛部署带来了公平性、偏见、问责和监管等伦理挑战。放在 AI安全与可信性 主线里看,这一页回答的是:当模型已经进入真实组织和真实用户环境后,我们如何定义“对谁公平”、由谁负责、用什么证据治理,以及哪些制度会反过来约束模型设计。
本文聚焦四件事:
- 偏见与不公平是如何进入模型生命周期的
- 公平性指标分别在度量什么,为什么它们会冲突
- 法规、模型文档和影响评估怎样把“伦理要求”变成组织流程
- 哪些最小工程实践能把公平性审计接进开发和部署
1. ML 中的偏见
1.1 偏见来源
| 偏见类型 | 来源 | 示例 |
|---|---|---|
| 历史偏见 | 现实世界中的不平等 | 招聘数据反映历史性别歧视 |
| 表示偏见 | 训练数据中群体比例失衡 | 人脸数据集中浅肤色占主导 |
| 测量偏见 | 代理变量引入偏差 | 用邮编代替种族 |
| 聚合偏见 | 对不同群体使用同一模型 | 医疗模型忽略种族差异 |
| 评估偏见 | 评估数据不代表实际用户 | 测试集缺少特定群体 |
| 部署偏见 | 系统使用方式偏离设计 | 在训练范围外的人群上使用 |
1.2 经典案例
| 案例 | 问题 | 原因 |
|---|---|---|
| Amazon 招聘 AI | 歧视女性求职者 | 训练数据反映历史偏好 |
| COMPAS 累犯预测 | 对黑人被告不公平 | 代理变量和历史偏见 |
| 人脸识别 | 对深肤色准确率低 | 训练数据不均衡 |
| GPT 语言模型 | 性别/种族刻板印象 | 互联网文本中的偏见 |
2. 公平性指标
2.1 群体公平性
设 \(A\) 为受保护属性(如性别、种族),\(\hat{Y}\) 为模型预测,\(Y\) 为真实标签。
人口统计均等(Demographic Parity):
\[
P(\hat{Y} = 1 | A = 0) = P(\hat{Y} = 1 | A = 1)
\]
正类预测率在不同群体间相等。
均等机会(Equalized Odds):
\[
P(\hat{Y} = 1 | Y = y, A = 0) = P(\hat{Y} = 1 | Y = y, A = 1), \quad \forall y \in \{0, 1\}
\]
在每个真实标签下,预测率在群体间相等。
均等机会(Equal Opportunity):
\[
P(\hat{Y} = 1 | Y = 1, A = 0) = P(\hat{Y} = 1 | Y = 1, A = 1)
\]
仅要求真正例率(TPR)在群体间相等。
预测值均等(Predictive Parity):
\[
P(Y = 1 | \hat{Y} = 1, A = 0) = P(Y = 1 | \hat{Y} = 1, A = 1)
\]
正预测值(Precision)在群体间相等。
2.2 不可能定理
Chouldechova(2017)和 Kleinberg et al.(2016)证明:
当基础率(base rate)在群体间不同时,不可能同时满足所有公平性指标。
这意味着公平性定义的选择本身就是一个价值判断。
2.3 公平性实践为什么会出现在这里
伦理治理并不只停留在原则表述上。只要一个团队声称“我们评估了公平性”或“我们对高风险模型加了公平性约束”,它就必须落到可执行的审计流程里。下面这段 fairlearn 示例并不是为了把本页变成库教程,而是展示治理要求如何进入最小工程闭环:
MetricFrame:按敏感属性分组,分别计算各群体的指标,而不是只看整体平均值selection_rate:看不同群体获得正向决策的比例,常用于人口统计均等false_positive_rate:看不同群体被误伤的比例,常用于分析错误分布是否失衡accuracy:提醒我们公平性约束通常会和总体性能一起评估,而不是孤立地看一个数字ExponentiatedGradient + DemographicParity:表示把公平性约束显式写入训练/后处理流程,而不是上线后再口头解释
如果你只理解治理原则,却不知道这些原则如何进入模型评估表和训练管线,那么治理就仍然停留在口号层面。
2.4 公平性实践最小示例
from fairlearn.metrics import MetricFrame, selection_rate, false_positive_rate
# 计算分组指标
metric_frame = MetricFrame(
metrics={
"selection_rate": selection_rate,
"false_positive_rate": false_positive_rate,
"accuracy": accuracy_score,
},
y_true=y_test,
y_pred=y_pred,
sensitive_features=sensitive_features
)
print(metric_frame.by_group)
# 公平性约束训练
from fairlearn.reductions import ExponentiatedGradient, DemographicParity
constraint = DemographicParity()
mitigator = ExponentiatedGradient(estimator, constraint)
mitigator.fit(X_train, y_train, sensitive_features=A_train)
3. 法规框架
3.1 欧盟 AI 法案(EU AI Act)
欧盟的 AI 法案按风险等级分类管理:
| 风险等级 | 要求 | 示例 |
|---|---|---|
| 不可接受风险 | 禁止 | 社会评分系统、实时公共场所人脸识别 |
| 高风险 | 严格监管 | 医疗 AI、招聘 AI、信用评分、司法 |
| 有限风险 | 透明度要求 | 聊天机器人需声明身份 |
| 最小风险 | 无特殊要求 | 垃圾邮件过滤、游戏 AI |
高风险 AI 系统要求:
- 风险管理体系
- 数据治理和数据质量
- 技术文档
- 记录保存和可追溯性
- 透明度和用户信息
- 人工监督
- 准确性、鲁棒性和网络安全
- 合规评估
3.2 中国 AI 法规
| 法规 | 年份 | 重点 |
|---|---|---|
| 深度合成管理规定 | 2023 | 深度伪造标注、内容审核 |
| 生成式 AI 管理暂行办法 | 2023 | 训练数据质量、内容安全 |
| 算法推荐管理规定 | 2022 | 推荐透明度、用户权益 |
| 个人信息保护法 (PIPL) | 2021 | 数据保护,类似 GDPR |
3.3 其他地区
| 地区 | 方向 | 特点 |
|---|---|---|
| 美国 | 行业自律 + 行政命令 | 2023 AI 行政令;各州立法 |
| 英国 | 原则导向 | 基于现有监管框架 |
| 日本 | 促进创新 | 宽松监管 |
4. 负责任 AI 原则
4.1 主要框架
Microsoft 负责任 AI 原则:
- 公平性(Fairness)
- 可靠性和安全性(Reliability & Safety)
- 隐私和安全(Privacy & Security)
- 包容性(Inclusiveness)
- 透明度(Transparency)
- 问责制(Accountability)
Google AI 原则:
- 对社会有益
- 避免制造或加深不公平偏见
- 为安全而建设和测试
- 对人负责
- 纳入隐私设计原则
- 坚持高标准的科学卓越
- 遵循这些原则提供给他人使用
Anthropic 核心安全承诺:
- 不追求 AI 的高级能力而忽视安全
- 投入大量资源进行安全研究
- 与政策制定者合作
- 透明地分享安全研究
4.2 实践建议
| 阶段 | 实践 |
|---|---|
| 设计 | 明确使用场景和限制;利益相关者参与 |
| 数据 | 审计训练数据偏见;数据文档(Datasheets) |
| 开发 | 公平性约束训练;多维度评估 |
| 测试 | 红队测试;分群体评估;对抗测试 |
| 部署 | 人工监督;监控公平性漂移;反馈机制 |
| 文档 | Model Card;数据声明;影响评估 |
5. AI 治理工具
| 工具 | 用途 |
|---|---|
| Model Cards | 模型文档标准(Google) |
| Datasheets for Datasets | 数据集文档标准 |
| AI Impact Assessment | 影响评估框架 |
| Fairlearn | 公平性评估和缓解(Microsoft) |
| AI Verify | AI 治理测试框架(新加坡) |
| NIST AI RMF | AI 风险管理框架(美国) |
6. 开放挑战
| 挑战 | 说明 |
|---|---|
| 公平性定义冲突 | 不同公平性指标不可同时满足 |
| 跨文化差异 | 不同文化对公平和隐私的理解不同 |
| 监管与创新平衡 | 过严影响发展,过松导致伤害 |
| 生成式 AI | 深度伪造、错误信息、版权问题 |
| 全球协调 | 不同国家/地区法规不一致 |
| 问责链 | AI 错误由谁负责?开发者?部署者? |
与其他主题的关系
参考资料
- EU AI Act 全文
- "Fairness and Machine Learning" - Barocas, Hardt, Narayanan
- "Weapons of Math Destruction" - Cathy O'Neil
- Google Responsible AI Practices
- Microsoft Responsible AI Standard