逆强化学习

问题定义

逆强化学习（Inverse Reinforcement Learning, IRL）的目标是从专家演示中恢复奖励函数。

标准RL：给定奖励 \(R\)，求最优策略 \(\pi^*\)

IRL：给定专家演示 \(\mathcal{D} = \{(s_0, a_0, s_1, a_1, \ldots)\}\)，恢复奖励函数 \(R(s, a)\)

形式化

给定：

状态空间 \(\mathcal{S}\)、动作空间 \(\mathcal{A}\)
转移动力学 \(P(s'|s, a)\)（可能未知）
折扣因子 \(\gamma\)
专家策略的演示轨迹 \(\tau_E = \{(s_t, a_t)\}_{t=0}^T\)

求：奖励函数 \(R: \mathcal{S} \times \mathcal{A} \to \mathbb{R}\)，使得专家策略在该奖励下是最优的。

IRL的不适定性

IRL是一个不适定（ill-posed）问题：

奖励函数 \(R \equiv 0\) 使所有策略都是最优的
对于给定的专家策略，存在无穷多个一致的奖励函数
需要额外的归纳偏置来选择"好的"奖励函数

经典IRL方法

线性IRL

假设奖励函数是特征的线性组合：

\[R(s) = \mathbf{w}^T \phi(s)\]

其中 \(\phi(s)\) 是状态特征向量，\(\mathbf{w}\) 是待学习的权重。

特征匹配约束：

\[\mathbb{E}_{\pi_E}[\phi(s)] = \mathbb{E}_{\pi^*_R}[\phi(s)]\]

即专家策略的特征期望与在学到的奖励下的最优策略的特征期望匹配。

最大间隔IRL

Abbeel & Ng (2004) 提出最大化专家策略与其他策略之间的价值差异：

\[\max_{\mathbf{w}} \min_\pi \left[\mathbf{w}^T \mu_E - \mathbf{w}^T \mu_\pi\right]\]

其中 \(\mu_\pi = \mathbb{E}_\pi\left[\sum_{t=0}^\infty \gamma^t \phi(s_t)\right]\) 是策略的特征期望。

最大熵IRL（MaxEntIRL）

动机

经典IRL方法产生的策略是确定性的，无法解释专家行为中的随机性。最大熵IRL（Ziebart et al., 2008）假设专家行为满足最大熵原则。

概率模型

轨迹的概率与累积奖励的指数成正比：

\[P(\tau | R) = \frac{1}{Z} \exp\left(\sum_{t=0}^T R(s_t, a_t)\right)\]

其中 \(Z\) 是配分函数。

优化目标

最大化专家轨迹的对数似然：

\[\max_R \sum_{\tau \in \mathcal{D}} \log P(\tau | R) = \max_R \sum_{\tau \in \mathcal{D}} \left[\sum_t R(s_t, a_t) - \log Z\right]\]

梯度

\[\nabla_R \mathcal{L} = \mu_E - \mathbb{E}_{\pi_R}[\mu]\]

即专家的状态-动作访问频率与当前策略的状态-动作访问频率之差。

算法流程

初始化奖励参数
在当前奖励下求解最优策略（前向RL）
计算当前策略的状态访问频率
更新奖励参数使专家轨迹更可能
重复步骤2-4直到收敛

挑战：每次更新奖励都需要重新求解RL问题，计算代价高。

GAIL（Generative Adversarial Imitation Learning）

动机

Ho & Ermon (2016) 将模仿学习和IRL统一到生成对抗框架中，避免了显式地恢复奖励函数。

核心思想

将策略视为"生成器"，判别器区分专家行为和策略行为：

\[\min_\pi \max_D \; \mathbb{E}_{\pi_E}[\log D(s, a)] + \mathbb{E}_\pi[\log(1 - D(s, a))]\]

其中：

\(D(s, a)\)：判别器，判断 \((s, a)\) 是否来自专家
\(\pi\)：策略（生成器），尝试生成与专家类似的行为

训练过程

判别器更新：固定策略，优化判别器以区分专家和策略的状态-动作对
策略更新：将 \(-\log(1 - D(s, a))\) 作为奖励信号，使用策略梯度（如TRPO、PPO）更新策略

与GAN的类比

GAN	GAIL
生成器生成图片	策略生成轨迹
判别器区分真假图片	判别器区分专家和策略行为
最小化JS散度	最小化策略与专家的占用度量差异

理论联系

GAIL最小化策略占用度量（occupancy measure）\(\rho_\pi(s, a)\) 和专家占用度量 \(\rho_E(s, a)\) 之间的Jensen-Shannon散度：

\[\min_\pi D_{\text{JS}}(\rho_\pi \| \rho_E)\]

优势与局限

优势：

无需显式恢复奖励函数
样本效率高于行为克隆（因为使用了在线交互）
可以使用任何策略优化方法

局限：

训练不稳定（继承了GAN的问题）
不产生可解释的奖励函数
需要在线与环境交互

AIRL（Adversarial Inverse Reinforcement Learning）

动机

Fu et al. (2018) 在GAIL基础上改进，使判别器的结构能够恢复可迁移的奖励函数。

判别器结构

\[D_\theta(s, a, s') = \frac{\exp(f_\theta(s, a, s'))}{\exp(f_\theta(s, a, s')) + \pi(a|s)}\]

其中：

\[f_\theta(s, a, s') = g_\theta(s, a) + \gamma h_\phi(s') - h_\phi(s)\]

\(g_\theta(s, a)\)：学到的奖励函数
\(h_\phi\)：类似于势函数的塑形项

关键特性

在最优判别器处，\(g_\theta\) 恢复真实的奖励函数（在等价类意义下）
学到的奖励可以迁移到不同的动力学模型
奖励函数是可解释的

与MaxEntIRL的关系

AIRL可以看作MaxEntIRL的对抗训练版本，避免了内层RL循环的高计算代价。

与模仿学习的关系

谱系对比

模仿学习方法
├── 行为克隆（BC）
│   └── 直接监督学习：π(a|s) = π_E(a|s)
├── 逆强化学习（IRL）
│   ├── MaxEntIRL：恢复奖励 → 训练策略
│   └── AIRL：对抗学习奖励
└── 对抗模仿学习
    └── GAIL：直接匹配占用度量

对比

方法	是否需要环境交互	是否恢复奖励	泛化能力
行为克隆	否	否	弱（分布偏移）
DAgger	是	否	中
MaxEntIRL	是	是	强
GAIL	是	否（隐式）	中
AIRL	是	是	强（可迁移）

何时使用IRL而非行为克隆

需要可解释的奖励函数
需要将奖励迁移到不同环境
专家演示有限但可以在线交互
环境动力学可能变化

现代发展

基于大模型的IRL

利用预训练大模型（如LLM、VLM）提取隐式的奖励信号：

语言模型评估行为的合理性
视觉模型评估状态的目标相关性
结合人类反馈的迭代优化

离线IRL

从离线数据集中恢复奖励函数，无需在线交互：

处理数据集中的分布偏移
结合保守估计方法

参考文献

Ng & Russell, "Algorithms for Inverse Reinforcement Learning" (ICML 2000)
Abbeel & Ng, "Apprenticeship Learning via Inverse Reinforcement Learning" (ICML 2004)
Ziebart et al., "Maximum Entropy Inverse Reinforcement Learning" (AAAI 2008)
Ho & Ermon, "Generative Adversarial Imitation Learning" (NeurIPS 2016)
Fu et al., "Learning Robust Rewards with Adversarial Inverse Reinforcement Learning" (ICLR 2018)