长序列建模
概述
处理超长序列(数万到数百万token)是序列模型的核心挑战。本章介绍Transformer之外的长序列建模方法,包括xLSTM、RWKV、Hyena等,以及它们与Transformer和SSM的权衡。
1. xLSTM:扩展的LSTM
1.1 动机
经典LSTM的局限:存储容量固定、无法并行化、缩放困难。
xLSTM(Beck et al., 2024)通过两个改进突破这些限制。
1.2 sLSTM(标量LSTM)
引入指数门控:
使用归一化器稳定计算:
1.3 mLSTM(矩阵LSTM)
将标量cell state扩展为矩阵:
其中 \(n_t = f_t n_{t-1} + i_t k_t\)。
关键:矩阵cell state大幅提升存储容量,类似线性注意力。
1.4 xLSTM架构
交替使用sLSTM和mLSTM块:
- sLSTM块:sLSTM + 门控残差 + LayerNorm
- mLSTM块:mLSTM + 前馈 + LayerNorm
- mLSTM可以完全并行化训练
2. RWKV:线性注意力RNN
2.1 核心思想
RWKV(Peng et al., 2023)结合了Transformer的训练并行性和RNN的推理效率。
2.2 WKV机制
RWKV的核心是WKV(Weighted Key-Value)操作:
其中 \(w\) 是位置衰减权重,\(u\) 是当前token的bonus。
递推形式:
2.3 RWKV架构
Time-Mixing(类似注意力):
类似地定义 \(k_t, v_t\),然后:
Channel-Mixing(类似FFN):
2.4 RWKV版本演进
| 版本 | 关键改进 |
|---|---|
| RWKV-4 | 基础WKV |
| RWKV-5 (Eagle) | 矩阵值状态 |
| RWKV-6 (Finch) | 数据依赖的衰减 |
| RWKV-7 | 进一步改进 |
3. Hyena:隐式长卷积
3.1 核心思想
Hyena(Poli et al., 2023)用隐式参数化的长卷积替代注意力。
3.2 Hyena算子
Hyena通过交替的逐元素乘法和长卷积实现高阶交互:
其中 \(h_i\) 是隐式参数化的卷积核(用MLP生成):
3.3 计算复杂度
- 使用FFT实现长卷积:\(O(L \log L)\)
- 没有二次复杂度
- 总复杂度:\(O(NL \log L)\),\(N\) 是Hyena阶数
4. 线性注意力
4.1 标准注意力到线性注意力
标准注意力:
线性注意力(Katharopoulos et al., 2020):
通过先算 \(\phi(K)^\top V\)(\(d \times d\)),实现 \(O(Ld^2)\) 复杂度。
4.2 线性注意力的递推形式
这就是一个线性RNN!\(S_t\) 是 \(d \times d\) 的状态矩阵。
4.3 线性注意力的问题
- 没有softmax归一化 → 性能不如标准注意力
- 特征映射 \(\phi\) 的选择影响很大
- RetNet、GLA等方法在此基础上改进
5. 其他方法
5.1 RetNet
RetNet(Sun et al., 2023):保留网络,支持三种计算模式。
- 并行模式:类似注意力(训练)
- 递推模式:类似RNN(推理)
- 分块模式:混合(长序列训练)
核心:带衰减的注意力:
其中 \(D_{ij} = \gamma^{i-j}\)(\(i \geq j\)),\(\gamma\) 是衰减因子。
5.2 GLA(Gated Linear Attention)
添加数据依赖的门控 \(G_t\),提升选择性。
6. Long Range Arena基准
6.1 任务描述
| 任务 | 序列长度 | 测试能力 |
|---|---|---|
| ListOps | 2K | 层次推理 |
| Text | 4K | 文本分类 |
| Retrieval | 8K | 文档匹配 |
| Image | 1K | 图像分类(展平为序列) |
| PathFinder | 1K | 空间推理 |
| Path-X | 16K | 超长空间推理 |
6.2 方法对比
| 方法 | 平均 | 训练模式 | 推理 |
|---|---|---|---|
| Transformer | 53.66 | 并行 | \(O(L)\)/token |
| S4 | 86.09 | 并行(卷积) | \(O(1)\)/token |
| Mamba | ~87 | 并行(扫描) | \(O(1)\)/token |
| Hyena | ~85 | 并行(FFT) | \(O(\log L)\)/token |
| RWKV | ~83 | 并行 | \(O(1)\)/token |
7. SSM vs Transformer权衡
| 维度 | Transformer | SSM/线性模型 |
|---|---|---|
| 长序列 | \(O(L^2)\) 限制 | \(O(L)\) 或 \(O(L\log L)\) |
| 上下文学习 | 强 | 较弱(固定状态瓶颈) |
| 精确检索 | 强(全局注意力) | 弱(信息被压缩) |
| 训练并行性 | 好 | 好(卷积/扫描) |
| 推理效率 | KV缓存增长 | 固定状态 |
| 硬件友好 | 矩阵乘法 | 需要专门实现 |
| 生态成熟度 | 高 | 发展中 |
共识趋势:混合架构(如Jamba、Zamba)结合两者优势。
8. 总结
核心要点:
- xLSTM复兴了LSTM,用矩阵状态和指数门控扩展能力
- RWKV实现了RNN的训练并行性,接近Transformer性能
- Hyena用隐式长卷积替代注意力
- 线性注意力是SSM和注意力的桥梁
- 混合架构是当前趋势
参考文献
- Beck et al., "xLSTM: Extended Long Short-Term Memory," 2024
- Peng et al., "RWKV: Reinventing RNNs for the Transformer Era," EMNLP 2023
- Poli et al., "Hyena Hierarchy: Towards Larger Convolutional Language Models," ICML 2023
- Katharopoulos et al., "Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention," ICML 2020
- Sun et al., "Retentive Network: A Successor to Transformer for Large Language Models," 2023