表示学习与RL

动机

在基于像素或高维传感器输入的RL中，状态表示的质量直接决定了学习效率和最终性能。好的表示应该：

捕获与决策相关的信息
忽略无关的视觉细节（如背景纹理）
具有良好的泛化能力
支持高效的策略和价值函数学习

数据增强方法

DrQ（Data-regularized Q）

Kostrikov et al. (2020) 发现简单的图像数据增强可以显著提高基于像素的RL性能。

核心方法：对观测图像应用随机平移（random shift）

\[\tilde{s} = \text{RandomShift}(s, \text{pad}=4)\]

在Q学习中的应用：

\[Q_{\text{target}} = r + \gamma Q_{\bar{\theta}}(\text{aug}(s'), \pi(\text{aug}(s')))\]

对目标计算和策略评估都使用增强后的观测。

DrQ-v2：Yarats et al. (2022) 改进版，结合了：

随机平移增强
\(n\)-step return
从DDPG而非SAC出发（更简单高效）

RAD（Reinforcement Learning with Augmented Data）

Laskin et al. (2020) 系统研究了各种数据增强方法在RL中的效果：

增强方法	描述	效果
Random crop	随机裁剪	最有效
Random shift	随机平移	非常有效
Color jitter	颜色扰动	部分有效
Random convolution	随机卷积滤波	有效
Grayscale	灰度化	视任务而定
Cutout	随机遮挡	部分有效

关键发现：

简单的裁剪/平移增强就能匹配甚至超过复杂的表示学习方法
不同环境适合不同的增强策略
数据增强是提升像素RL性能最简单有效的方法

对比学习方法

CURL（Contrastive Unsupervised Representations for RL）

Laskin et al. (2020) 将对比学习引入RL的表示学习：

正样本对：同一观测的两个不同增强

\[s_q = \text{aug}_1(s), \quad s_k = \text{aug}_2(s)\]

对比损失（InfoNCE）：

\[\mathcal{L}_{\text{CURL}} = -\log \frac{\exp(q^T W k_+)}{\exp(q^T W k_+) + \sum_{j} \exp(q^T W k_j^-)}\]

其中 \(q = f_q(s_q)\)，\(k = f_k(s_k)\)，\(W\) 是可学习的双线性矩阵。

与RL的结合：

编码器 \(f_q\) 同时用于RL（策略/价值网络的特征提取器）
对比损失作为辅助任务，与RL损失联合训练
动量编码器 \(f_k\) 使用EMA更新

对比学习的局限

负样本的选择影响性能
对比目标可能与RL目标不一致
计算开销增加

双模拟度量（Bisimulation Metrics）

核心思想

两个状态如果它们在行为上不可区分，就应该有相似的表示。

双模拟关系：状态 \(s_1\) 和 \(s_2\) 是双模拟的，如果：

它们的即时奖励相同：\(R(s_1, a) = R(s_2, a), \forall a\)
它们的转移分布在双模拟等价类上相同

π-双模拟度量

Zhang et al. (2021) 提出了针对策略的双模拟度量：

\[d_\pi(s_1, s_2) = (1 - c) |R^\pi(s_1) - R^\pi(s_2)| + c \cdot W_1(d_\pi)(P^\pi(\cdot|s_1), P^\pi(\cdot|s_2))\]

其中 \(W_1\) 是Wasserstein距离，\(c\) 是折扣因子。

DeepMDP

Gelada et al. (2019) 学习满足以下条件的表示 \(\phi\)：

\[\|\phi(s_1) - \phi(s_2)\| \approx d(s_1, s_2)\]

训练目标：

奖励预测：\(\hat{R}(\phi(s), a) \approx R(s, a)\)
转移预测：\(\hat{P}(\phi(s), a) \approx \phi(s')\)

优势

理论上有保证的表示质量
自动忽略与决策无关的信息（如背景变化）
适合需要泛化到不同视觉外观的场景

世界模型表示

Dreamer的潜在空间

Dreamer（Hafner et al., 2020）学习压缩的潜在状态表示：

RSSM（Recurrent State-Space Model）：

确定性路径：\(h_t = f(h_{t-1}, z_{t-1}, a_{t-1})\)
随机路径：\(z_t \sim q(z_t | h_t, o_t)\)（后验）
先验：\(\hat{z}_t \sim p(z_t | h_t)\)

潜在空间特性：

捕获了与预测未来奖励和观测相关的信息
压缩了高维观测到低维潜在空间
支持在潜在空间中进行想象（imagination）规划

与表示学习的联系

世界模型的表示学习通过重构目标和预测目标来学习有用的表示：

\[\mathcal{L} = \mathcal{L}_{\text{recon}} + \mathcal{L}_{\text{reward}} + \mathcal{L}_{\text{KL}}\]

详见基于模型的RL

自预测表示（SPR）

核心思想

Schwarzer et al. (2021) 提出SPR（Self-Predictive Representations），通过预测自身未来表示来学习：

\[\mathcal{L}_{\text{SPR}} = \sum_{k=1}^{K} \left\| \bar{f}(\phi(s_{t+k})) - g(\hat{z}_{t+k}) \right\|^2\]

其中：

\(\phi(s_{t+k})\)：目标编码器对未来状态的编码（使用EMA更新）
\(\hat{z}_{t+k}\)：从当前状态通过转移模型预测的未来表示
\(g\)：投影头
\(\bar{f}\)：目标投影头

与其他方法的关系

方法	预测目标	学习信号
重构	原始像素	像素级误差
CURL	同一观测的增强	对比损失
SPR	未来表示	预测损失
双模拟	行为等价性	度量距离

优势

不需要重构像素（避免像素级细节）
不需要负样本（对比方法的挑战）
与时间差分学习天然兼容

方法总结与选择指南

复杂度-性能权衡

方法复杂度（从简到复杂）：
数据增强 < 对比学习 < 自预测 < 双模拟 < 世界模型

推荐路径：
1. 首先尝试数据增强（DrQ-v2）
2. 如果不够，加入对比/自预测辅助任务
3. 如果需要泛化，考虑双模拟度量
4. 如果需要规划，使用世界模型

实践建议

场景	推荐方法
像素输入，快速原型	DrQ-v2
需要样本效率	CURL / SPR
视觉泛化（背景变化）	双模拟度量
需要模型预测	Dreamer
离散动作（Atari）	SPR + Rainbow
连续控制	DrQ-v2

参考文献

Kostrikov et al., "Image Augmentation Is All You Need: Regularizing Deep Reinforcement Learning from Pixels" (ICLR 2021)
Yarats et al., "Mastering Visual Continuous Control: Improved Data-Augmented Reinforcement Learning" (ICLR 2022)
Laskin et al., "Reinforcement Learning with Augmented Data" (NeurIPS 2020)
Laskin et al., "CURL: Contrastive Unsupervised Representations for Reinforcement Learning" (ICML 2020)
Zhang et al., "Learning Invariant Representations for Reinforcement Learning without Reconstruction" (ICLR 2021)
Schwarzer et al., "Data-Efficient Reinforcement Learning with Self-Predictive Representations" (ICLR 2021)
Hafner et al., "Dream to Control: Learning Behaviors by Latent Imagination" (ICLR 2020)
Gelada et al., "DeepMDP: Learning Continuous Latent Space Models for Representation Learning" (ICML 2019)

表示学习与RL

动机

数据增强方法

DrQ（Data-regularized Q）

RAD（Reinforcement Learning with Augmented Data）

对比学习方法

CURL（Contrastive Unsupervised Representations for RL）

对比学习的局限

双模拟度量（Bisimulation Metrics）

核心思想

π-双模拟度量

DeepMDP

优势

世界模型表示

Dreamer的潜在空间

与表示学习的联系

自预测表示（SPR）

核心思想

与其他方法的关系

优势

方法总结与选择指南

复杂度-性能权衡

实践建议

参考文献

评论 #