多智能体强化学习综述
概述
多智能体强化学习 (Multi-Agent Reinforcement Learning, MARL) 研究多个智能体在共享环境中同时学习和交互的问题。与单智能体 RL 相比,MARL 面临环境非平稳性、信用分配困难、可扩展性等独特挑战,同时也展现了协作、竞争和涌现行为等丰富现象。
1. 为什么需要多智能体 RL?
1.1 现实世界本质上是多智能体的
- 交通系统: 多辆自动驾驶车辆协调行驶
- 机器人团队: 多机器人协同完成搬运、搜索等任务
- 经济市场: 多个参与者的策略博弈
- 游戏 AI: Dota 2、星际争霸等多人对战
- 通信网络: 多节点协调资源分配
- 社会仿真: 模拟多主体社会行为
1.2 单智能体方法的局限
将其他智能体视为环境的一部分,直接用单智能体 RL:
- 环境变成非平稳的(其他智能体也在学习和改变策略)
- 维度爆炸: 联合动作空间指数增长
- 信用分配: 团队奖励下难以判断个体贡献
- 无法建模通信和协调
2. 问题建模
2.1 马尔可夫博弈 (Markov Game / Stochastic Game)
MARL 最常用的数学框架是 马尔可夫博弈,定义为:
- \(N\): 智能体数量
- \(\mathcal{S}\): 状态空间(全局状态)
- \(\mathcal{A}_i\): 智能体 \(i\) 的动作空间
- \(P(s'|s, a_1, \dots, a_N)\): 联合状态转移
- \(R_i(s, a_1, \dots, a_N)\): 智能体 \(i\) 的奖励函数
- \(\gamma\): 折扣因子
联合动作空间: \(\mathcal{A} = \mathcal{A}_1 \times \mathcal{A}_2 \times \dots \times \mathcal{A}_N\)
2.2 Dec-POMDP: 分布式部分可观测
更真实的建模,每个智能体只有局部观测:
新增: - \(\mathcal{O}_i\): 智能体 \(i\) 的观测空间 - \(O(o_i|s, i)\): 观测函数
关键差异: - 每个智能体基于局部观测 \(o_i\) 而非全局状态 \(s\) 决策 - Dec-POMDP 的最优求解是 NEXP-hard
2.3 特殊情况
| 模型 | 奖励结构 | 信息结构 | 示例 |
|---|---|---|---|
| 合作博弈 | \(R_1 = R_2 = \dots = R_N\) | 部分可观测 | 多机器人协作 |
| 零和博弈 | \(R_1 = -R_2\) (两人) | 完全/部分可观测 | 围棋、扑克 |
| 一般和博弈 | 各自独立 | 部分可观测 | 交通、经济 |
| 平均场博弈 | 与平均行为相关 | 局部观测 | 大规模群体 |
3. MARL 核心挑战
3.1 非平稳性 (Non-Stationarity)
问题: 从任一智能体视角,环境包含其他正在学习的智能体,因此环境动力学不断变化。
随着 \(\pi_j\) 的更新,\(P_i\) 也在变化,打破了 MDP 的平稳假设。
应对策略:
- 集中式训练: 训练时利用全局信息
- 对手建模: 显式建模其他智能体的策略
- 经验回放修正: 重要性采样校正过时经验
3.2 信用分配 (Credit Assignment)
问题: 在合作任务中,团队获得共享奖励 \(R_{team}\),如何判断每个智能体的贡献?
智能体 \(i\) 对团队奖励的贡献是什么?
应对策略:
- 差分奖励: \(R_i = R_{team}(a_i, a_{-i}) - R_{team}(a_{-i})\)
- 价值分解: VDN, QMIX 将团队 Q 值分解为个体贡献
- Shapley 值: 博弈论的公平分配方法
3.3 部分可观测性 (Partial Observability)
问题: 智能体只能观测环境的局部信息。
- 无法获得其他智能体的状态/意图
- 需要从历史观测中推断隐藏信息
- 通信可以缓解但不能完全解决
3.4 可扩展性 (Scalability)
问题: 联合动作空间随智能体数量指数增长。
\(N=10\), \(|\mathcal{A}_i|=5\) 时,\(|\mathcal{A}| = 5^{10} \approx 10^7\)
应对策略:
- 参数共享: 所有智能体共享网络参数
- 均值场近似: 用群体平均行为替代个体交互
- 注意力机制: 动态选择关注的智能体子集
3.5 探索协调
问题: 多个智能体需要协调探索,单独探索可能永远发现不了协作策略。
- 联合探索空间巨大
- 好的协作策略可能需要多个智能体同时改变行为
- 局部最优陷阱更加严重
4. MARL 训练范式
4.1 范式分类
graph TD
MARL[MARL 训练范式] --> IL[独立学习<br>Independent Learners]
MARL --> CTDE[集中训练<br>分布执行<br>CTDE]
MARL --> FC[完全集中式<br>Fully Centralized]
IL --> IQL[Independent Q-Learning]
IL --> IPPO[Independent PPO]
CTDE --> VD[价值分解]
CTDE --> CC[集中式 Critic]
CTDE --> COMM[通信学习]
VD --> VDN[VDN]
VD --> QMIX[QMIX]
CC --> MADDPG[MADDPG]
CC --> MAPPO[MAPPO]
COMM --> CommNet[CommNet]
COMM --> TarMAC[TarMAC]
FC --> CQL_M[联合Q学习]
style MARL fill:#e1f5fe
style CTDE fill:#e8f5e9
4.2 独立学习 (Independent Learners)
思路: 每个智能体独立运行单智能体 RL 算法。
训练: 分布式,每个智能体只用自己的观测和奖励
执行: 分布式
优点: - 实现简单 - 可扩展性好 - 无需通信
缺点: - 忽略其他智能体 - 非平稳环境导致训练不稳定 - 难以学习协作策略
代表算法: IQL (Independent Q-Learning), IPPO (Independent PPO)
4.3 集中训练分布执行 (CTDE)
思路: 训练时利用全局信息,执行时只用局部观测。
训练: 集中式,可以访问全局状态、所有智能体的观测和动作
执行: 分布式,每个智能体只用自己的局部观测
优点: - 训练时可以利用额外信息提高学习效率 - 执行时无需通信,适用于实际部署 - 目前最主流的范式
缺点: - 训练阶段需要集中式基础设施 - 训练-执行的信息不对称可能导致问题
代表算法: QMIX, MADDPG, MAPPO
CTDE 是当前主流
CTDE 在实用性和性能之间取得了最好的平衡,是目前 MARL 研究和应用中最主流的范式。
4.4 完全集中式
思路: 将多智能体问题视为单一超级智能体的决策问题。
训练/执行: 都是集中式
优点: - 理论上可以找到全局最优 - 完全协调
缺点: - 联合动作空间指数爆炸 - 需要全局通信 - 不适用于大规模问题
5. 合作 vs 竞争 vs 混合
5.1 合作任务 (Cooperative)
所有智能体共享同一目标:
挑战: 信用分配、协调探索 应用: 多机器人协作、编队控制、协同搜索
5.2 竞争任务 (Competitive)
智能体之间存在对抗:
- 零和博弈: \(R_1 + R_2 = 0\)
- 解概念: 纳什均衡
挑战: 非传递性(A > B > C > A)、均衡计算 应用: 围棋、扑克、安全博弈
5.3 混合任务 (Mixed)
既有合作也有竞争:
- 团队对抗: 队内合作,队间竞争 (如 Dota 2)
- 社会困境: 个体理性与集体理性冲突 (如囚徒困境)
- 机制设计: 设计激励机制促进合作
应用: 多人游戏、交通系统、经济模拟
6. 评估与基准
6.1 常用环境
| 环境 | 类型 | 智能体数 | 特点 |
|---|---|---|---|
| MPE | 合作/竞争 | 2-10 | 简单连续,经典基准 |
| SMAC | 合作 | 2-27 | 星际争霸微观操控 |
| Google Football | 合作/竞争 | 2-22 | 足球模拟 |
| Hanabi | 合作 | 2-5 | 不完全信息卡牌 |
| Overcooked | 合作 | 2 | 人机协作烹饪 |
| MAgent | 大规模 | 100+ | 大规模对抗 |
| MetaDrive | 混合 | 多辆车 | 自动驾驶 |
6.2 评估指标
- 团队回报: 合作任务的核心指标
- 胜率: 竞争任务中的对比指标
- 社会福利: 所有智能体回报之和
- 公平性: 回报分配的均匀程度
- 可扩展性: 随智能体数量增加的性能变化
- 通信开销: 通信量和带宽需求
7. MARL 与 LLM 多智能体
7.1 新兴方向
大语言模型时代,多智能体系统出现新的研究方向:
- LLM 多智能体协作: 多个 LLM 角色协同解决问题 (AutoGen, CrewAI)
- 辩论与协商: 多个 LLM 通过辩论提升推理质量
- 社会仿真: 用 LLM 智能体模拟社会行为 (Generative Agents)
- RL 训练多智能体 LLM: 用 MARL 方法训练多个 LLM 的交互
7.2 经典 MARL vs LLM 多智能体
| 维度 | 经典 MARL | LLM 多智能体 |
|---|---|---|
| 智能体 | 从头训练 | 预训练大模型 |
| 通信 | 学习的向量 | 自然语言 |
| 策略空间 | 连续/离散动作 | 文本生成 |
| 训练方式 | 梯度优化 | 提示工程/微调 |
| 可解释性 | 低 | 高(自然语言) |
8. 总结与展望
8.1 当前状态
- CTDE 范式成熟,在多个基准上表现优异
- MAPPO 在合作任务中出人意料地强大
- 价值分解方法在离散动作空间中效果好
- 大规模 MARL (100+ 智能体) 仍具挑战
8.2 未来方向
- 大规模 MARL: 处理数百甚至数千智能体
- 异构智能体: 不同类型智能体的协作
- 迁移与泛化: 跨任务/跨智能体数量的泛化
- 安全多智能体: 保证多智能体系统的安全性
- 人机混合团队: 人类与 AI 智能体的协作
- LLM + MARL: 大语言模型与经典 MARL 的融合
参考资料
- Busoniu, L. et al. (2008). A Comprehensive Survey of Multiagent Reinforcement Learning. IEEE Trans. Systems.
- Hernandez-Leal, P. et al. (2019). A Survey and Critique of Multiagent Deep Reinforcement Learning.
- Zhang, K. et al. (2021). Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms.
- Wong, A. et al. (2023). Deep Multiagent Reinforcement Learning: Challenges and Directions.
延伸阅读
- MARL算法 — 价值分解、策略梯度等具体算法
- 强化学习全景 — RL方法论全局视图
- RL里程碑 — OpenAI Five、AlphaStar等里程碑
- 多智能体综述 — AI Agent视角的多智能体系统