AI 伦理与治理

概述

AI 系统的广泛部署带来了公平性、偏见、问责和监管等伦理挑战。放在 AI安全与可信性 主线里看，这一页回答的是：当模型已经进入真实组织和真实用户环境后，我们如何定义“对谁公平”、由谁负责、用什么证据治理，以及哪些制度会反过来约束模型设计。

本文聚焦四件事：

偏见与不公平是如何进入模型生命周期的
公平性指标分别在度量什么，为什么它们会冲突
法规、模型文档和影响评估怎样把“伦理要求”变成组织流程
哪些最小工程实践能把公平性审计接进开发和部署

1. ML 中的偏见

1.1 偏见来源

偏见类型	来源	示例
历史偏见	现实世界中的不平等	招聘数据反映历史性别歧视
表示偏见	训练数据中群体比例失衡	人脸数据集中浅肤色占主导
测量偏见	代理变量引入偏差	用邮编代替种族
聚合偏见	对不同群体使用同一模型	医疗模型忽略种族差异
评估偏见	评估数据不代表实际用户	测试集缺少特定群体
部署偏见	系统使用方式偏离设计	在训练范围外的人群上使用

1.2 经典案例

案例	问题	原因
Amazon 招聘 AI	歧视女性求职者	训练数据反映历史偏好
COMPAS 累犯预测	对黑人被告不公平	代理变量和历史偏见
人脸识别	对深肤色准确率低	训练数据不均衡
GPT 语言模型	性别/种族刻板印象	互联网文本中的偏见

2. 公平性指标

2.1 群体公平性

设 \(A\) 为受保护属性（如性别、种族），\(\hat{Y}\) 为模型预测，\(Y\) 为真实标签。

人口统计均等（Demographic Parity）：

\[ P(\hat{Y} = 1 | A = 0) = P(\hat{Y} = 1 | A = 1) \]

正类预测率在不同群体间相等。

均等机会（Equalized Odds）：

\[ P(\hat{Y} = 1 | Y = y, A = 0) = P(\hat{Y} = 1 | Y = y, A = 1), \quad \forall y \in \{0, 1\} \]

在每个真实标签下，预测率在群体间相等。

均等机会（Equal Opportunity）：

\[ P(\hat{Y} = 1 | Y = 1, A = 0) = P(\hat{Y} = 1 | Y = 1, A = 1) \]

仅要求真正例率（TPR）在群体间相等。

预测值均等（Predictive Parity）：

\[ P(Y = 1 | \hat{Y} = 1, A = 0) = P(Y = 1 | \hat{Y} = 1, A = 1) \]

正预测值（Precision）在群体间相等。

2.2 不可能定理

Chouldechova（2017）和 Kleinberg et al.（2016）证明：

当基础率（base rate）在群体间不同时，不可能同时满足所有公平性指标。

这意味着公平性定义的选择本身就是一个价值判断。

2.3 公平性实践为什么会出现在这里

伦理治理并不只停留在原则表述上。只要一个团队声称“我们评估了公平性”或“我们对高风险模型加了公平性约束”，它就必须落到可执行的审计流程里。下面这段 fairlearn 示例并不是为了把本页变成库教程，而是展示治理要求如何进入最小工程闭环：

MetricFrame：按敏感属性分组，分别计算各群体的指标，而不是只看整体平均值
selection_rate：看不同群体获得正向决策的比例，常用于人口统计均等
false_positive_rate：看不同群体被误伤的比例，常用于分析错误分布是否失衡
accuracy：提醒我们公平性约束通常会和总体性能一起评估，而不是孤立地看一个数字
ExponentiatedGradient + DemographicParity：表示把公平性约束显式写入训练/后处理流程，而不是上线后再口头解释

如果你只理解治理原则，却不知道这些原则如何进入模型评估表和训练管线，那么治理就仍然停留在口号层面。

2.4 公平性实践最小示例

from fairlearn.metrics import MetricFrame, selection_rate, false_positive_rate

# 计算分组指标
metric_frame = MetricFrame(
    metrics={
        "selection_rate": selection_rate,
        "false_positive_rate": false_positive_rate,
        "accuracy": accuracy_score,
    },
    y_true=y_test,
    y_pred=y_pred,
    sensitive_features=sensitive_features
)

print(metric_frame.by_group)

# 公平性约束训练
from fairlearn.reductions import ExponentiatedGradient, DemographicParity

constraint = DemographicParity()
mitigator = ExponentiatedGradient(estimator, constraint)
mitigator.fit(X_train, y_train, sensitive_features=A_train)

3. 法规框架

3.1 欧盟 AI 法案（EU AI Act）

欧盟的 AI 法案按风险等级分类管理：

风险等级	要求	示例
不可接受风险	禁止	社会评分系统、实时公共场所人脸识别
高风险	严格监管	医疗 AI、招聘 AI、信用评分、司法
有限风险	透明度要求	聊天机器人需声明身份
最小风险	无特殊要求	垃圾邮件过滤、游戏 AI

高风险 AI 系统要求：

风险管理体系
数据治理和数据质量
技术文档
记录保存和可追溯性
透明度和用户信息
人工监督
准确性、鲁棒性和网络安全
合规评估

3.2 中国 AI 法规

法规	年份	重点
深度合成管理规定	2023	深度伪造标注、内容审核
生成式 AI 管理暂行办法	2023	训练数据质量、内容安全
算法推荐管理规定	2022	推荐透明度、用户权益
个人信息保护法 (PIPL)	2021	数据保护，类似 GDPR

3.3 其他地区

地区	方向	特点
美国	行业自律 + 行政命令	2023 AI 行政令；各州立法
英国	原则导向	基于现有监管框架
日本	促进创新	宽松监管

4. 负责任 AI 原则

4.1 主要框架

Microsoft 负责任 AI 原则：

公平性（Fairness）
可靠性和安全性（Reliability & Safety）
隐私和安全（Privacy & Security）
包容性（Inclusiveness）
透明度（Transparency）
问责制（Accountability）

Google AI 原则：

对社会有益
避免制造或加深不公平偏见
为安全而建设和测试
对人负责
纳入隐私设计原则
坚持高标准的科学卓越
遵循这些原则提供给他人使用

Anthropic 核心安全承诺：

不追求 AI 的高级能力而忽视安全
投入大量资源进行安全研究
与政策制定者合作
透明地分享安全研究

4.2 实践建议

阶段	实践
设计	明确使用场景和限制；利益相关者参与
数据	审计训练数据偏见；数据文档（Datasheets）
开发	公平性约束训练；多维度评估
测试	红队测试；分群体评估；对抗测试
部署	人工监督；监控公平性漂移；反馈机制
文档	Model Card；数据声明；影响评估

5. AI 治理工具

工具	用途
Model Cards	模型文档标准（Google）
Datasheets for Datasets	数据集文档标准
AI Impact Assessment	影响评估框架
Fairlearn	公平性评估和缓解（Microsoft）
AI Verify	AI 治理测试框架（新加坡）
NIST AI RMF	AI 风险管理框架（美国）

6. 开放挑战

挑战	说明
公平性定义冲突	不同公平性指标不可同时满足
跨文化差异	不同文化对公平和隐私的理解不同
监管与创新平衡	过严影响发展，过松导致伤害
生成式 AI	深度伪造、错误信息、版权问题
全球协调	不同国家/地区法规不一致
问责链	AI 错误由谁负责？开发者？部署者？

与其他主题的关系

与总体安全框架的关系：参见 AI安全综述
与隐私和高风险部署的关系：参见隐私攻击与 AI工程安全与合规
与对齐和价值约束的关系：参见 AI对齐
与可解释性证据的关系：参见可解释性与鲁棒性

参考资料

EU AI Act 全文
"Fairness and Machine Learning" - Barocas, Hardt, Narayanan
"Weapons of Math Destruction" - Cathy O'Neil
Google Responsible AI Practices
Microsoft Responsible AI Standard