表示学习与RL
动机
在基于像素或高维传感器输入的RL中,状态表示的质量直接决定了学习效率和最终性能。好的表示应该:
- 捕获与决策相关的信息
- 忽略无关的视觉细节(如背景纹理)
- 具有良好的泛化能力
- 支持高效的策略和价值函数学习
数据增强方法
DrQ(Data-regularized Q)
Kostrikov et al. (2020) 发现简单的图像数据增强可以显著提高基于像素的RL性能。
核心方法:对观测图像应用随机平移(random shift)
\[\tilde{s} = \text{RandomShift}(s, \text{pad}=4)\]
在Q学习中的应用:
\[Q_{\text{target}} = r + \gamma Q_{\bar{\theta}}(\text{aug}(s'), \pi(\text{aug}(s')))\]
对目标计算和策略评估都使用增强后的观测。
DrQ-v2:Yarats et al. (2022) 改进版,结合了:
- 随机平移增强
- \(n\)-step return
- 从DDPG而非SAC出发(更简单高效)
RAD(Reinforcement Learning with Augmented Data)
Laskin et al. (2020) 系统研究了各种数据增强方法在RL中的效果:
| 增强方法 | 描述 | 效果 |
|---|---|---|
| Random crop | 随机裁剪 | 最有效 |
| Random shift | 随机平移 | 非常有效 |
| Color jitter | 颜色扰动 | 部分有效 |
| Random convolution | 随机卷积滤波 | 有效 |
| Grayscale | 灰度化 | 视任务而定 |
| Cutout | 随机遮挡 | 部分有效 |
关键发现:
- 简单的裁剪/平移增强就能匹配甚至超过复杂的表示学习方法
- 不同环境适合不同的增强策略
- 数据增强是提升像素RL性能最简单有效的方法
对比学习方法
CURL(Contrastive Unsupervised Representations for RL)
Laskin et al. (2020) 将对比学习引入RL的表示学习:
正样本对:同一观测的两个不同增强
\[s_q = \text{aug}_1(s), \quad s_k = \text{aug}_2(s)\]
对比损失(InfoNCE):
\[\mathcal{L}_{\text{CURL}} = -\log \frac{\exp(q^T W k_+)}{\exp(q^T W k_+) + \sum_{j} \exp(q^T W k_j^-)}\]
其中 \(q = f_q(s_q)\),\(k = f_k(s_k)\),\(W\) 是可学习的双线性矩阵。
与RL的结合:
- 编码器 \(f_q\) 同时用于RL(策略/价值网络的特征提取器)
- 对比损失作为辅助任务,与RL损失联合训练
- 动量编码器 \(f_k\) 使用EMA更新
对比学习的局限
- 负样本的选择影响性能
- 对比目标可能与RL目标不一致
- 计算开销增加
双模拟度量(Bisimulation Metrics)
核心思想
两个状态如果它们在行为上不可区分,就应该有相似的表示。
双模拟关系:状态 \(s_1\) 和 \(s_2\) 是双模拟的,如果:
- 它们的即时奖励相同:\(R(s_1, a) = R(s_2, a), \forall a\)
- 它们的转移分布在双模拟等价类上相同
π-双模拟度量
Zhang et al. (2021) 提出了针对策略的双模拟度量:
\[d_\pi(s_1, s_2) = (1 - c) |R^\pi(s_1) - R^\pi(s_2)| + c \cdot W_1(d_\pi)(P^\pi(\cdot|s_1), P^\pi(\cdot|s_2))\]
其中 \(W_1\) 是Wasserstein距离,\(c\) 是折扣因子。
DeepMDP
Gelada et al. (2019) 学习满足以下条件的表示 \(\phi\):
\[\|\phi(s_1) - \phi(s_2)\| \approx d(s_1, s_2)\]
训练目标:
- 奖励预测:\(\hat{R}(\phi(s), a) \approx R(s, a)\)
- 转移预测:\(\hat{P}(\phi(s), a) \approx \phi(s')\)
优势
- 理论上有保证的表示质量
- 自动忽略与决策无关的信息(如背景变化)
- 适合需要泛化到不同视觉外观的场景
世界模型表示
Dreamer的潜在空间
Dreamer(Hafner et al., 2020)学习压缩的潜在状态表示:
RSSM(Recurrent State-Space Model):
- 确定性路径:\(h_t = f(h_{t-1}, z_{t-1}, a_{t-1})\)
- 随机路径:\(z_t \sim q(z_t | h_t, o_t)\)(后验)
- 先验:\(\hat{z}_t \sim p(z_t | h_t)\)
潜在空间特性:
- 捕获了与预测未来奖励和观测相关的信息
- 压缩了高维观测到低维潜在空间
- 支持在潜在空间中进行想象(imagination)规划
与表示学习的联系
世界模型的表示学习通过重构目标和预测目标来学习有用的表示:
\[\mathcal{L} = \mathcal{L}_{\text{recon}} + \mathcal{L}_{\text{reward}} + \mathcal{L}_{\text{KL}}\]
详见 基于模型的RL
自预测表示(SPR)
核心思想
Schwarzer et al. (2021) 提出SPR(Self-Predictive Representations),通过预测自身未来表示来学习:
\[\mathcal{L}_{\text{SPR}} = \sum_{k=1}^{K} \left\| \bar{f}(\phi(s_{t+k})) - g(\hat{z}_{t+k}) \right\|^2\]
其中:
- \(\phi(s_{t+k})\):目标编码器对未来状态的编码(使用EMA更新)
- \(\hat{z}_{t+k}\):从当前状态通过转移模型预测的未来表示
- \(g\):投影头
- \(\bar{f}\):目标投影头
与其他方法的关系
| 方法 | 预测目标 | 学习信号 |
|---|---|---|
| 重构 | 原始像素 | 像素级误差 |
| CURL | 同一观测的增强 | 对比损失 |
| SPR | 未来表示 | 预测损失 |
| 双模拟 | 行为等价性 | 度量距离 |
优势
- 不需要重构像素(避免像素级细节)
- 不需要负样本(对比方法的挑战)
- 与时间差分学习天然兼容
方法总结与选择指南
复杂度-性能权衡
方法复杂度(从简到复杂):
数据增强 < 对比学习 < 自预测 < 双模拟 < 世界模型
推荐路径:
1. 首先尝试数据增强(DrQ-v2)
2. 如果不够,加入对比/自预测辅助任务
3. 如果需要泛化,考虑双模拟度量
4. 如果需要规划,使用世界模型
实践建议
| 场景 | 推荐方法 |
|---|---|
| 像素输入,快速原型 | DrQ-v2 |
| 需要样本效率 | CURL / SPR |
| 视觉泛化(背景变化) | 双模拟度量 |
| 需要模型预测 | Dreamer |
| 离散动作(Atari) | SPR + Rainbow |
| 连续控制 | DrQ-v2 |
参考文献
- Kostrikov et al., "Image Augmentation Is All You Need: Regularizing Deep Reinforcement Learning from Pixels" (ICLR 2021)
- Yarats et al., "Mastering Visual Continuous Control: Improved Data-Augmented Reinforcement Learning" (ICLR 2022)
- Laskin et al., "Reinforcement Learning with Augmented Data" (NeurIPS 2020)
- Laskin et al., "CURL: Contrastive Unsupervised Representations for Reinforcement Learning" (ICML 2020)
- Zhang et al., "Learning Invariant Representations for Reinforcement Learning without Reconstruction" (ICLR 2021)
- Schwarzer et al., "Data-Efficient Reinforcement Learning with Self-Predictive Representations" (ICLR 2021)
- Hafner et al., "Dream to Control: Learning Behaviors by Latent Imagination" (ICLR 2020)
- Gelada et al., "DeepMDP: Learning Continuous Latent Space Models for Representation Learning" (ICML 2019)