跳转至

表示学习与RL

动机

在基于像素或高维传感器输入的RL中,状态表示的质量直接决定了学习效率和最终性能。好的表示应该:

  • 捕获与决策相关的信息
  • 忽略无关的视觉细节(如背景纹理)
  • 具有良好的泛化能力
  • 支持高效的策略和价值函数学习

数据增强方法

DrQ(Data-regularized Q)

Kostrikov et al. (2020) 发现简单的图像数据增强可以显著提高基于像素的RL性能。

核心方法:对观测图像应用随机平移(random shift)

\[\tilde{s} = \text{RandomShift}(s, \text{pad}=4)\]

在Q学习中的应用

\[Q_{\text{target}} = r + \gamma Q_{\bar{\theta}}(\text{aug}(s'), \pi(\text{aug}(s')))\]

对目标计算和策略评估都使用增强后的观测。

DrQ-v2:Yarats et al. (2022) 改进版,结合了:

  • 随机平移增强
  • \(n\)-step return
  • 从DDPG而非SAC出发(更简单高效)

RAD(Reinforcement Learning with Augmented Data)

Laskin et al. (2020) 系统研究了各种数据增强方法在RL中的效果:

增强方法 描述 效果
Random crop 随机裁剪 最有效
Random shift 随机平移 非常有效
Color jitter 颜色扰动 部分有效
Random convolution 随机卷积滤波 有效
Grayscale 灰度化 视任务而定
Cutout 随机遮挡 部分有效

关键发现

  • 简单的裁剪/平移增强就能匹配甚至超过复杂的表示学习方法
  • 不同环境适合不同的增强策略
  • 数据增强是提升像素RL性能最简单有效的方法

对比学习方法

CURL(Contrastive Unsupervised Representations for RL)

Laskin et al. (2020) 将对比学习引入RL的表示学习:

正样本对:同一观测的两个不同增强

\[s_q = \text{aug}_1(s), \quad s_k = \text{aug}_2(s)\]

对比损失(InfoNCE):

\[\mathcal{L}_{\text{CURL}} = -\log \frac{\exp(q^T W k_+)}{\exp(q^T W k_+) + \sum_{j} \exp(q^T W k_j^-)}\]

其中 \(q = f_q(s_q)\)\(k = f_k(s_k)\)\(W\) 是可学习的双线性矩阵。

与RL的结合

  • 编码器 \(f_q\) 同时用于RL(策略/价值网络的特征提取器)
  • 对比损失作为辅助任务,与RL损失联合训练
  • 动量编码器 \(f_k\) 使用EMA更新

对比学习的局限

  • 负样本的选择影响性能
  • 对比目标可能与RL目标不一致
  • 计算开销增加

双模拟度量(Bisimulation Metrics)

核心思想

两个状态如果它们在行为上不可区分,就应该有相似的表示。

双模拟关系:状态 \(s_1\)\(s_2\) 是双模拟的,如果:

  1. 它们的即时奖励相同:\(R(s_1, a) = R(s_2, a), \forall a\)
  2. 它们的转移分布在双模拟等价类上相同

π-双模拟度量

Zhang et al. (2021) 提出了针对策略的双模拟度量:

\[d_\pi(s_1, s_2) = (1 - c) |R^\pi(s_1) - R^\pi(s_2)| + c \cdot W_1(d_\pi)(P^\pi(\cdot|s_1), P^\pi(\cdot|s_2))\]

其中 \(W_1\) 是Wasserstein距离,\(c\) 是折扣因子。

DeepMDP

Gelada et al. (2019) 学习满足以下条件的表示 \(\phi\)

\[\|\phi(s_1) - \phi(s_2)\| \approx d(s_1, s_2)\]

训练目标

  • 奖励预测:\(\hat{R}(\phi(s), a) \approx R(s, a)\)
  • 转移预测:\(\hat{P}(\phi(s), a) \approx \phi(s')\)

优势

  • 理论上有保证的表示质量
  • 自动忽略与决策无关的信息(如背景变化)
  • 适合需要泛化到不同视觉外观的场景

世界模型表示

Dreamer的潜在空间

Dreamer(Hafner et al., 2020)学习压缩的潜在状态表示:

RSSM(Recurrent State-Space Model)

  • 确定性路径:\(h_t = f(h_{t-1}, z_{t-1}, a_{t-1})\)
  • 随机路径:\(z_t \sim q(z_t | h_t, o_t)\)(后验)
  • 先验:\(\hat{z}_t \sim p(z_t | h_t)\)

潜在空间特性

  • 捕获了与预测未来奖励和观测相关的信息
  • 压缩了高维观测到低维潜在空间
  • 支持在潜在空间中进行想象(imagination)规划

与表示学习的联系

世界模型的表示学习通过重构目标预测目标来学习有用的表示:

\[\mathcal{L} = \mathcal{L}_{\text{recon}} + \mathcal{L}_{\text{reward}} + \mathcal{L}_{\text{KL}}\]

详见 基于模型的RL

自预测表示(SPR)

核心思想

Schwarzer et al. (2021) 提出SPR(Self-Predictive Representations),通过预测自身未来表示来学习:

\[\mathcal{L}_{\text{SPR}} = \sum_{k=1}^{K} \left\| \bar{f}(\phi(s_{t+k})) - g(\hat{z}_{t+k}) \right\|^2\]

其中:

  • \(\phi(s_{t+k})\):目标编码器对未来状态的编码(使用EMA更新)
  • \(\hat{z}_{t+k}\):从当前状态通过转移模型预测的未来表示
  • \(g\):投影头
  • \(\bar{f}\):目标投影头

与其他方法的关系

方法 预测目标 学习信号
重构 原始像素 像素级误差
CURL 同一观测的增强 对比损失
SPR 未来表示 预测损失
双模拟 行为等价性 度量距离

优势

  • 不需要重构像素(避免像素级细节)
  • 不需要负样本(对比方法的挑战)
  • 与时间差分学习天然兼容

方法总结与选择指南

复杂度-性能权衡

方法复杂度(从简到复杂):
数据增强 < 对比学习 < 自预测 < 双模拟 < 世界模型

推荐路径:
1. 首先尝试数据增强(DrQ-v2)
2. 如果不够,加入对比/自预测辅助任务
3. 如果需要泛化,考虑双模拟度量
4. 如果需要规划,使用世界模型

实践建议

场景 推荐方法
像素输入,快速原型 DrQ-v2
需要样本效率 CURL / SPR
视觉泛化(背景变化) 双模拟度量
需要模型预测 Dreamer
离散动作(Atari) SPR + Rainbow
连续控制 DrQ-v2

参考文献

  • Kostrikov et al., "Image Augmentation Is All You Need: Regularizing Deep Reinforcement Learning from Pixels" (ICLR 2021)
  • Yarats et al., "Mastering Visual Continuous Control: Improved Data-Augmented Reinforcement Learning" (ICLR 2022)
  • Laskin et al., "Reinforcement Learning with Augmented Data" (NeurIPS 2020)
  • Laskin et al., "CURL: Contrastive Unsupervised Representations for Reinforcement Learning" (ICML 2020)
  • Zhang et al., "Learning Invariant Representations for Reinforcement Learning without Reconstruction" (ICLR 2021)
  • Schwarzer et al., "Data-Efficient Reinforcement Learning with Self-Predictive Representations" (ICLR 2021)
  • Hafner et al., "Dream to Control: Learning Behaviors by Latent Imagination" (ICLR 2020)
  • Gelada et al., "DeepMDP: Learning Continuous Latent Space Models for Representation Learning" (ICML 2019)

评论 #