跳转至

多智能体强化学习综述

概述

多智能体强化学习 (Multi-Agent Reinforcement Learning, MARL) 研究多个智能体在共享环境中同时学习和交互的问题。与单智能体 RL 相比,MARL 面临环境非平稳性、信用分配困难、可扩展性等独特挑战,同时也展现了协作、竞争和涌现行为等丰富现象。


1. 为什么需要多智能体 RL?

1.1 现实世界本质上是多智能体的

  • 交通系统: 多辆自动驾驶车辆协调行驶
  • 机器人团队: 多机器人协同完成搬运、搜索等任务
  • 经济市场: 多个参与者的策略博弈
  • 游戏 AI: Dota 2、星际争霸等多人对战
  • 通信网络: 多节点协调资源分配
  • 社会仿真: 模拟多主体社会行为

1.2 单智能体方法的局限

将其他智能体视为环境的一部分,直接用单智能体 RL:

  • 环境变成非平稳的(其他智能体也在学习和改变策略)
  • 维度爆炸: 联合动作空间指数增长
  • 信用分配: 团队奖励下难以判断个体贡献
  • 无法建模通信和协调

2. 问题建模

2.1 马尔可夫博弈 (Markov Game / Stochastic Game)

MARL 最常用的数学框架是 马尔可夫博弈,定义为:

\[\mathcal{G} = (N, \mathcal{S}, \{\mathcal{A}_i\}_{i=1}^N, P, \{R_i\}_{i=1}^N, \gamma)\]
  • \(N\): 智能体数量
  • \(\mathcal{S}\): 状态空间(全局状态)
  • \(\mathcal{A}_i\): 智能体 \(i\) 的动作空间
  • \(P(s'|s, a_1, \dots, a_N)\): 联合状态转移
  • \(R_i(s, a_1, \dots, a_N)\): 智能体 \(i\) 的奖励函数
  • \(\gamma\): 折扣因子

联合动作空间: \(\mathcal{A} = \mathcal{A}_1 \times \mathcal{A}_2 \times \dots \times \mathcal{A}_N\)

2.2 Dec-POMDP: 分布式部分可观测

更真实的建模,每个智能体只有局部观测:

\[\mathcal{M} = (N, \mathcal{S}, \{\mathcal{A}_i\}, \{\mathcal{O}_i\}, P, O, \{R_i\}, \gamma)\]

新增: - \(\mathcal{O}_i\): 智能体 \(i\) 的观测空间 - \(O(o_i|s, i)\): 观测函数

关键差异: - 每个智能体基于局部观测 \(o_i\) 而非全局状态 \(s\) 决策 - Dec-POMDP 的最优求解是 NEXP-hard

2.3 特殊情况

模型 奖励结构 信息结构 示例
合作博弈 \(R_1 = R_2 = \dots = R_N\) 部分可观测 多机器人协作
零和博弈 \(R_1 = -R_2\) (两人) 完全/部分可观测 围棋、扑克
一般和博弈 各自独立 部分可观测 交通、经济
平均场博弈 与平均行为相关 局部观测 大规模群体

3. MARL 核心挑战

3.1 非平稳性 (Non-Stationarity)

问题: 从任一智能体视角,环境包含其他正在学习的智能体,因此环境动力学不断变化。

\[P_i(s'|s, a_i) = \sum_{a_{-i}} P(s'|s, a_i, a_{-i}) \prod_{j \neq i} \pi_j(a_j|o_j)\]

随着 \(\pi_j\) 的更新,\(P_i\) 也在变化,打破了 MDP 的平稳假设。

应对策略:

  • 集中式训练: 训练时利用全局信息
  • 对手建模: 显式建模其他智能体的策略
  • 经验回放修正: 重要性采样校正过时经验

3.2 信用分配 (Credit Assignment)

问题: 在合作任务中,团队获得共享奖励 \(R_{team}\),如何判断每个智能体的贡献?

\[R_{team} = R(s, a_1, a_2, \dots, a_N)\]

智能体 \(i\) 对团队奖励的贡献是什么?

应对策略:

  • 差分奖励: \(R_i = R_{team}(a_i, a_{-i}) - R_{team}(a_{-i})\)
  • 价值分解: VDN, QMIX 将团队 Q 值分解为个体贡献
  • Shapley 值: 博弈论的公平分配方法

3.3 部分可观测性 (Partial Observability)

问题: 智能体只能观测环境的局部信息。

  • 无法获得其他智能体的状态/意图
  • 需要从历史观测中推断隐藏信息
  • 通信可以缓解但不能完全解决

3.4 可扩展性 (Scalability)

问题: 联合动作空间随智能体数量指数增长。

\[|\mathcal{A}| = \prod_{i=1}^N |\mathcal{A}_i|\]

\(N=10\), \(|\mathcal{A}_i|=5\) 时,\(|\mathcal{A}| = 5^{10} \approx 10^7\)

应对策略:

  • 参数共享: 所有智能体共享网络参数
  • 均值场近似: 用群体平均行为替代个体交互
  • 注意力机制: 动态选择关注的智能体子集

3.5 探索协调

问题: 多个智能体需要协调探索,单独探索可能永远发现不了协作策略。

  • 联合探索空间巨大
  • 好的协作策略可能需要多个智能体同时改变行为
  • 局部最优陷阱更加严重

4. MARL 训练范式

4.1 范式分类

graph TD
    MARL[MARL 训练范式] --> IL[独立学习<br>Independent Learners]
    MARL --> CTDE[集中训练<br>分布执行<br>CTDE]
    MARL --> FC[完全集中式<br>Fully Centralized]

    IL --> IQL[Independent Q-Learning]
    IL --> IPPO[Independent PPO]

    CTDE --> VD[价值分解]
    CTDE --> CC[集中式 Critic]
    CTDE --> COMM[通信学习]

    VD --> VDN[VDN]
    VD --> QMIX[QMIX]

    CC --> MADDPG[MADDPG]
    CC --> MAPPO[MAPPO]

    COMM --> CommNet[CommNet]
    COMM --> TarMAC[TarMAC]

    FC --> CQL_M[联合Q学习]

    style MARL fill:#e1f5fe
    style CTDE fill:#e8f5e9

4.2 独立学习 (Independent Learners)

思路: 每个智能体独立运行单智能体 RL 算法。

训练: 分布式,每个智能体只用自己的观测和奖励

执行: 分布式

优点: - 实现简单 - 可扩展性好 - 无需通信

缺点: - 忽略其他智能体 - 非平稳环境导致训练不稳定 - 难以学习协作策略

代表算法: IQL (Independent Q-Learning), IPPO (Independent PPO)

4.3 集中训练分布执行 (CTDE)

思路: 训练时利用全局信息,执行时只用局部观测。

训练: 集中式,可以访问全局状态、所有智能体的观测和动作

执行: 分布式,每个智能体只用自己的局部观测

优点: - 训练时可以利用额外信息提高学习效率 - 执行时无需通信,适用于实际部署 - 目前最主流的范式

缺点: - 训练阶段需要集中式基础设施 - 训练-执行的信息不对称可能导致问题

代表算法: QMIX, MADDPG, MAPPO

CTDE 是当前主流

CTDE 在实用性和性能之间取得了最好的平衡,是目前 MARL 研究和应用中最主流的范式。

4.4 完全集中式

思路: 将多智能体问题视为单一超级智能体的决策问题。

训练/执行: 都是集中式

优点: - 理论上可以找到全局最优 - 完全协调

缺点: - 联合动作空间指数爆炸 - 需要全局通信 - 不适用于大规模问题


5. 合作 vs 竞争 vs 混合

5.1 合作任务 (Cooperative)

所有智能体共享同一目标:

\[\max_{\pi_1, \dots, \pi_N} J = \mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^t R_{team}(s_t, \mathbf{a}_t)\right]\]

挑战: 信用分配、协调探索 应用: 多机器人协作、编队控制、协同搜索

5.2 竞争任务 (Competitive)

智能体之间存在对抗:

  • 零和博弈: \(R_1 + R_2 = 0\)
  • 解概念: 纳什均衡
\[\pi_i^* = \arg\max_{\pi_i} J_i(\pi_i, \pi_{-i}^*), \quad \forall i\]

挑战: 非传递性(A > B > C > A)、均衡计算 应用: 围棋、扑克、安全博弈

5.3 混合任务 (Mixed)

既有合作也有竞争:

  • 团队对抗: 队内合作,队间竞争 (如 Dota 2)
  • 社会困境: 个体理性与集体理性冲突 (如囚徒困境)
  • 机制设计: 设计激励机制促进合作

应用: 多人游戏、交通系统、经济模拟


6. 评估与基准

6.1 常用环境

环境 类型 智能体数 特点
MPE 合作/竞争 2-10 简单连续,经典基准
SMAC 合作 2-27 星际争霸微观操控
Google Football 合作/竞争 2-22 足球模拟
Hanabi 合作 2-5 不完全信息卡牌
Overcooked 合作 2 人机协作烹饪
MAgent 大规模 100+ 大规模对抗
MetaDrive 混合 多辆车 自动驾驶

6.2 评估指标

  • 团队回报: 合作任务的核心指标
  • 胜率: 竞争任务中的对比指标
  • 社会福利: 所有智能体回报之和
  • 公平性: 回报分配的均匀程度
  • 可扩展性: 随智能体数量增加的性能变化
  • 通信开销: 通信量和带宽需求

7. MARL 与 LLM 多智能体

7.1 新兴方向

大语言模型时代,多智能体系统出现新的研究方向:

  • LLM 多智能体协作: 多个 LLM 角色协同解决问题 (AutoGen, CrewAI)
  • 辩论与协商: 多个 LLM 通过辩论提升推理质量
  • 社会仿真: 用 LLM 智能体模拟社会行为 (Generative Agents)
  • RL 训练多智能体 LLM: 用 MARL 方法训练多个 LLM 的交互

7.2 经典 MARL vs LLM 多智能体

维度 经典 MARL LLM 多智能体
智能体 从头训练 预训练大模型
通信 学习的向量 自然语言
策略空间 连续/离散动作 文本生成
训练方式 梯度优化 提示工程/微调
可解释性 高(自然语言)

8. 总结与展望

8.1 当前状态

  • CTDE 范式成熟,在多个基准上表现优异
  • MAPPO 在合作任务中出人意料地强大
  • 价值分解方法在离散动作空间中效果好
  • 大规模 MARL (100+ 智能体) 仍具挑战

8.2 未来方向

  1. 大规模 MARL: 处理数百甚至数千智能体
  2. 异构智能体: 不同类型智能体的协作
  3. 迁移与泛化: 跨任务/跨智能体数量的泛化
  4. 安全多智能体: 保证多智能体系统的安全性
  5. 人机混合团队: 人类与 AI 智能体的协作
  6. LLM + MARL: 大语言模型与经典 MARL 的融合

参考资料

  • Busoniu, L. et al. (2008). A Comprehensive Survey of Multiagent Reinforcement Learning. IEEE Trans. Systems.
  • Hernandez-Leal, P. et al. (2019). A Survey and Critique of Multiagent Deep Reinforcement Learning.
  • Zhang, K. et al. (2021). Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms.
  • Wong, A. et al. (2023). Deep Multiagent Reinforcement Learning: Challenges and Directions.

延伸阅读


评论 #