多智能体强化学习综述

概述

多智能体强化学习 (Multi-Agent Reinforcement Learning, MARL) 研究多个智能体在共享环境中同时学习和交互的问题。与单智能体 RL 相比,MARL 面临环境非平稳性、信用分配困难、可扩展性等独特挑战,同时也展现了协作、竞争和涌现行为等丰富现象。

1. 为什么需要多智能体 RL?

1.1 现实世界本质上是多智能体的

交通系统: 多辆自动驾驶车辆协调行驶
机器人团队: 多机器人协同完成搬运、搜索等任务
经济市场: 多个参与者的策略博弈
游戏 AI: Dota 2、星际争霸等多人对战
通信网络: 多节点协调资源分配
社会仿真: 模拟多主体社会行为

1.2 单智能体方法的局限

将其他智能体视为环境的一部分,直接用单智能体 RL:

环境变成非平稳的(其他智能体也在学习和改变策略)
维度爆炸: 联合动作空间指数增长
信用分配: 团队奖励下难以判断个体贡献
无法建模通信和协调

2. 问题建模

2.1 马尔可夫博弈 (Markov Game / Stochastic Game)

MARL 最常用的数学框架是 马尔可夫博弈,定义为:

\[\mathcal{G} = (N, \mathcal{S}, \{\mathcal{A}_i\}_{i=1}^N, P, \{R_i\}_{i=1}^N, \gamma)\]

\(N\): 智能体数量
\(\mathcal{S}\): 状态空间(全局状态)
\(\mathcal{A}_i\): 智能体 \(i\) 的动作空间
\(P(s'|s, a_1, \dots, a_N)\): 联合状态转移
\(R_i(s, a_1, \dots, a_N)\): 智能体 \(i\) 的奖励函数
\(\gamma\): 折扣因子

联合动作空间: \(\mathcal{A} = \mathcal{A}_1 \times \mathcal{A}_2 \times \dots \times \mathcal{A}_N\)

2.2 Dec-POMDP: 分布式部分可观测

更真实的建模,每个智能体只有局部观测:

\[\mathcal{M} = (N, \mathcal{S}, \{\mathcal{A}_i\}, \{\mathcal{O}_i\}, P, O, \{R_i\}, \gamma)\]

新增: - \(\mathcal{O}_i\): 智能体 \(i\) 的观测空间 - \(O(o_i|s, i)\): 观测函数

关键差异: - 每个智能体基于局部观测 \(o_i\) 而非全局状态 \(s\) 决策 - Dec-POMDP 的最优求解是 NEXP-hard

2.3 特殊情况

模型	奖励结构	信息结构	示例
合作博弈	\(R_1 = R_2 = \dots = R_N\)	部分可观测	多机器人协作
零和博弈	\(R_1 = -R_2\) (两人)	完全/部分可观测	围棋、扑克
一般和博弈	各自独立	部分可观测	交通、经济
平均场博弈	与平均行为相关	局部观测	大规模群体

3. MARL 核心挑战

3.1 非平稳性 (Non-Stationarity)

问题: 从任一智能体视角,环境包含其他正在学习的智能体,因此环境动力学不断变化。

\[P_i(s'|s, a_i) = \sum_{a_{-i}} P(s'|s, a_i, a_{-i}) \prod_{j \neq i} \pi_j(a_j|o_j)\]

随着 \(\pi_j\) 的更新,\(P_i\) 也在变化,打破了 MDP 的平稳假设。

应对策略:

集中式训练: 训练时利用全局信息
对手建模: 显式建模其他智能体的策略
经验回放修正: 重要性采样校正过时经验

3.2 信用分配 (Credit Assignment)

问题: 在合作任务中,团队获得共享奖励 \(R_{team}\),如何判断每个智能体的贡献?

\[R_{team} = R(s, a_1, a_2, \dots, a_N)\]

智能体 \(i\) 对团队奖励的贡献是什么?

应对策略:

差分奖励: \(R_i = R_{team}(a_i, a_{-i}) - R_{team}(a_{-i})\)
价值分解: VDN, QMIX 将团队 Q 值分解为个体贡献
Shapley 值: 博弈论的公平分配方法

3.3 部分可观测性 (Partial Observability)

问题: 智能体只能观测环境的局部信息。

无法获得其他智能体的状态/意图
需要从历史观测中推断隐藏信息
通信可以缓解但不能完全解决

3.4 可扩展性 (Scalability)

问题: 联合动作空间随智能体数量指数增长。

\[|\mathcal{A}| = \prod_{i=1}^N |\mathcal{A}_i|\]

\(N=10\), \(|\mathcal{A}_i|=5\) 时,\(|\mathcal{A}| = 5^{10} \approx 10^7\)

应对策略:

参数共享: 所有智能体共享网络参数
均值场近似: 用群体平均行为替代个体交互
注意力机制: 动态选择关注的智能体子集

3.5 探索协调

问题: 多个智能体需要协调探索,单独探索可能永远发现不了协作策略。

联合探索空间巨大
好的协作策略可能需要多个智能体同时改变行为
局部最优陷阱更加严重

4. MARL 训练范式

4.1 范式分类

graph TD
    MARL[MARL 训练范式] --> IL[独立学习<br>Independent Learners]
    MARL --> CTDE[集中训练<br>分布执行<br>CTDE]
    MARL --> FC[完全集中式<br>Fully Centralized]

    IL --> IQL[Independent Q-Learning]
    IL --> IPPO[Independent PPO]

    CTDE --> VD[价值分解]
    CTDE --> CC[集中式 Critic]
    CTDE --> COMM[通信学习]

    VD --> VDN[VDN]
    VD --> QMIX[QMIX]

    CC --> MADDPG[MADDPG]
    CC --> MAPPO[MAPPO]

    COMM --> CommNet[CommNet]
    COMM --> TarMAC[TarMAC]

    FC --> CQL_M[联合Q学习]

    style MARL fill:#e1f5fe
    style CTDE fill:#e8f5e9

4.2 独立学习 (Independent Learners)

思路: 每个智能体独立运行单智能体 RL 算法。

训练: 分布式,每个智能体只用自己的观测和奖励

执行: 分布式

优点: - 实现简单 - 可扩展性好 - 无需通信

缺点: - 忽略其他智能体 - 非平稳环境导致训练不稳定 - 难以学习协作策略

代表算法: IQL (Independent Q-Learning), IPPO (Independent PPO)

4.3 集中训练分布执行 (CTDE)

思路: 训练时利用全局信息,执行时只用局部观测。

训练: 集中式,可以访问全局状态、所有智能体的观测和动作

执行: 分布式,每个智能体只用自己的局部观测

优点: - 训练时可以利用额外信息提高学习效率 - 执行时无需通信,适用于实际部署 - 目前最主流的范式

缺点: - 训练阶段需要集中式基础设施 - 训练-执行的信息不对称可能导致问题

代表算法: QMIX, MADDPG, MAPPO

CTDE 是当前主流

CTDE 在实用性和性能之间取得了最好的平衡,是目前 MARL 研究和应用中最主流的范式。

4.4 完全集中式

思路: 将多智能体问题视为单一超级智能体的决策问题。

训练/执行: 都是集中式

优点: - 理论上可以找到全局最优 - 完全协调

缺点: - 联合动作空间指数爆炸 - 需要全局通信 - 不适用于大规模问题

5. 合作 vs 竞争 vs 混合

5.1 合作任务 (Cooperative)

所有智能体共享同一目标:

\[\max_{\pi_1, \dots, \pi_N} J = \mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^t R_{team}(s_t, \mathbf{a}_t)\right]\]

挑战: 信用分配、协调探索应用: 多机器人协作、编队控制、协同搜索

5.2 竞争任务 (Competitive)

智能体之间存在对抗:

零和博弈: \(R_1 + R_2 = 0\)
解概念: 纳什均衡

\[\pi_i^* = \arg\max_{\pi_i} J_i(\pi_i, \pi_{-i}^*), \quad \forall i\]

挑战: 非传递性(A > B > C > A)、均衡计算应用: 围棋、扑克、安全博弈

5.3 混合任务 (Mixed)

既有合作也有竞争:

团队对抗: 队内合作,队间竞争 (如 Dota 2)
社会困境: 个体理性与集体理性冲突 (如囚徒困境)
机制设计: 设计激励机制促进合作

应用: 多人游戏、交通系统、经济模拟

6. 评估与基准

6.1 常用环境

环境	类型	智能体数	特点
MPE	合作/竞争	2-10	简单连续,经典基准
SMAC	合作	2-27	星际争霸微观操控
Google Football	合作/竞争	2-22	足球模拟
Hanabi	合作	2-5	不完全信息卡牌
Overcooked	合作	2	人机协作烹饪
MAgent	大规模	100+	大规模对抗
MetaDrive	混合	多辆车	自动驾驶

6.2 评估指标

团队回报: 合作任务的核心指标
胜率: 竞争任务中的对比指标
社会福利: 所有智能体回报之和
公平性: 回报分配的均匀程度
可扩展性: 随智能体数量增加的性能变化
通信开销: 通信量和带宽需求

7. MARL 与 LLM 多智能体

7.1 新兴方向

大语言模型时代,多智能体系统出现新的研究方向:

LLM 多智能体协作: 多个 LLM 角色协同解决问题 (AutoGen, CrewAI)
辩论与协商: 多个 LLM 通过辩论提升推理质量
社会仿真: 用 LLM 智能体模拟社会行为 (Generative Agents)
RL 训练多智能体 LLM: 用 MARL 方法训练多个 LLM 的交互

7.2 经典 MARL vs LLM 多智能体

维度	经典 MARL	LLM 多智能体
智能体	从头训练	预训练大模型
通信	学习的向量	自然语言
策略空间	连续/离散动作	文本生成
训练方式	梯度优化	提示工程/微调
可解释性	低	高(自然语言)

8. 总结与展望

8.1 当前状态

CTDE 范式成熟,在多个基准上表现优异
MAPPO 在合作任务中出人意料地强大
价值分解方法在离散动作空间中效果好
大规模 MARL (100+ 智能体) 仍具挑战

8.2 未来方向

大规模 MARL: 处理数百甚至数千智能体
异构智能体: 不同类型智能体的协作
迁移与泛化: 跨任务/跨智能体数量的泛化
安全多智能体: 保证多智能体系统的安全性
人机混合团队: 人类与 AI 智能体的协作
LLM + MARL: 大语言模型与经典 MARL 的融合

参考资料

Busoniu, L. et al. (2008). A Comprehensive Survey of Multiagent Reinforcement Learning. IEEE Trans. Systems.
Hernandez-Leal, P. et al. (2019). A Survey and Critique of Multiagent Deep Reinforcement Learning.
Zhang, K. et al. (2021). Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms.
Wong, A. et al. (2023). Deep Multiagent Reinforcement Learning: Challenges and Directions.

延伸阅读

MARL算法 — 价值分解、策略梯度等具体算法
强化学习全景 — RL方法论全局视图
RL里程碑 — OpenAI Five、AlphaStar等里程碑
多智能体综述 — AI Agent视角的多智能体系统

多智能体强化学习综述

概述

1. 为什么需要多智能体 RL?

1.1 现实世界本质上是多智能体的

1.2 单智能体方法的局限

2. 问题建模

2.1 马尔可夫博弈 (Markov Game / Stochastic Game)

2.2 Dec-POMDP: 分布式部分可观测

2.3 特殊情况

3. MARL 核心挑战

3.1 非平稳性 (Non-Stationarity)

3.2 信用分配 (Credit Assignment)

3.3 部分可观测性 (Partial Observability)

3.4 可扩展性 (Scalability)

3.5 探索协调

4. MARL 训练范式

4.1 范式分类

4.2 独立学习 (Independent Learners)

4.3 集中训练分布执行 (CTDE)

4.4 完全集中式

5. 合作 vs 竞争 vs 混合

5.1 合作任务 (Cooperative)

5.2 竞争任务 (Competitive)

5.3 混合任务 (Mixed)

6. 评估与基准

6.1 常用环境

6.2 评估指标

7. MARL 与 LLM 多智能体

7.1 新兴方向

7.2 经典 MARL vs LLM 多智能体

8. 总结与展望

8.1 当前状态

8.2 未来方向

参考资料

延伸阅读

评论 #