生成模型对比
概述
生成模型是深度学习中最活跃的研究方向之一。从VAE到GAN,从扩散模型到Flow Matching,再到自回归模型,每种范式都有独特的设计哲学和适用场景。本章对五大生成模型家族进行系统对比。
graph LR
A[生成模型] --> B[VAE]
A --> C[GAN]
A --> D[Diffusion]
A --> E[Flow]
A --> F[Autoregressive]
B --> B1[2013]
C --> C1[2014]
D --> D1[2020]
E --> E1[2024]
F --> F1[2016 PixelRNN]
1. 五大生成模型概览
1.1 VAE(Variational Autoencoder)
核心思想:学习数据的潜在分布,通过编码器-解码器结构实现生成。
\[
\mathcal{L}_{\text{VAE}} = \mathbb{E}_{q(z|x)}[\log p(x|z)] - D_{KL}(q(z|x) \| p(z))
\]
- 重建项 + KL散度正则项
- 潜在空间连续、可插值
1.2 GAN(Generative Adversarial Network)
核心思想:生成器与判别器的对抗博弈。
\[
\min_G \max_D \mathbb{E}_{x \sim p_{\text{data}}}[\log D(x)] + \mathbb{E}_{z \sim p_z}[\log(1 - D(G(z)))]
\]
- 隐式密度模型(不显式建模分布)
- 生成质量高但训练不稳定
1.3 Diffusion Model
核心思想:通过逐步加噪再逐步去噪来学习数据分布。
\[
\mathcal{L}_{\text{simple}} = \mathbb{E}_{t, x_0, \epsilon}\left[\| \epsilon - \epsilon_\theta(x_t, t) \|^2\right]
\]
- 训练稳定、生成质量极高
- 采样速度慢(需要多步去噪)
1.4 Flow-based Model
核心思想:通过可逆变换将简单分布映射到复杂分布。
\[
\log p(x) = \log p(z) + \log \left|\det \frac{\partial f^{-1}}{\partial x}\right|
\]
Flow Matching(2024主流):
\[
\mathcal{L}_{\text{FM}} = \mathbb{E}_{t, x_0, x_1}\left[\| v_\theta(x_t, t) - (x_1 - x_0) \|^2\right]
\]
1.5 Autoregressive Model
核心思想:逐个token/pixel生成,建模条件概率链。
\[
p(x) = \prod_{i=1}^{n} p(x_i | x_1, \ldots, x_{i-1})
\]
- 精确的对数似然
- 生成速度慢(串行)
2. 全面对比
2.1 核心维度对比
| 维度 | VAE | GAN | Diffusion | Flow | Autoregressive |
|---|---|---|---|---|---|
| 训练稳定性 | 稳定 | 不稳定 | 非常稳定 | 稳定 | 稳定 |
| 生成质量 | 中(模糊) | 高(锐利) | 非常高 | 高 | 高 |
| 多样性 | 高 | 中(模式崩塌) | 非常高 | 高 | 高 |
| 采样速度 | 快(一步) | 快(一步) | 慢(多步) | 中 | 慢(串行) |
| 似然估计 | 下界(ELBO) | 无 | 下界 | 精确 | 精确 |
| 可控性 | 中 | 中 | 高 | 高 | 高 |
| 模式覆盖 | 好 | 差 | 好 | 好 | 好 |
| 内存需求 | 低 | 低 | 高 | 中 | 中 |
| 当前主流 | 作为组件 | 衰退 | 是 | 上升中 | 是(LLM) |
2.2 训练对比
| 特性 | VAE | GAN | Diffusion | Flow | Autoregressive |
|---|---|---|---|---|---|
| 损失函数 | ELBO | 对抗损失 | 简单MSE | 速度场MSE | 交叉熵 |
| 训练目标 | 重建+正则 | 极小极大 | 去噪 | 速度匹配 | 下一token预测 |
| 超参敏感 | 低 | 高 | 低 | 低 | 低 |
| 收敛性 | 好 | 差 | 好 | 好 | 好 |
2.3 架构对比
| 特性 | VAE | GAN | Diffusion | Flow | Autoregressive |
|---|---|---|---|---|---|
| 典型架构 | CNN/Transformer | CNN | U-Net/DiT | DiT | Transformer |
| 潜在空间 | 连续 | 连续 | 像素/潜在 | 连续 | 离散token |
| 条件机制 | 拼接/交叉注意力 | 条件BN | 交叉注意力/CFG | 交叉注意力 | 前缀/提示 |
3. 决策树
graph TD
A[选择生成模型] --> B{任务类型?}
B -->|文本生成| C[Autoregressive]
B -->|图像生成| D{优先级?}
B -->|视频生成| E[Diffusion/Flow]
B -->|表示学习| F[VAE]
D -->|质量优先| G{速度要求?}
D -->|速度优先| H[GAN/VAE]
D -->|可控性| I[Diffusion + CFG]
G -->|可以慢| J[Diffusion]
G -->|需要快| K[Flow Matching]
C --> C1[GPT系列 / LLaMA]
J --> J1[SDXL / DALL-E 3]
K --> K1[SD3 / Flux]
I --> I1[ControlNet + Diffusion]
4. 历史演进
4.1 时间线
| 年份 | 里程碑 | 意义 |
|---|---|---|
| 2013 | VAE | 变分推断 + 深度学习 |
| 2014 | GAN | 对抗训练范式 |
| 2015 | DCGAN | GAN + CNN |
| 2017 | WGAN | 解决GAN训练不稳定 |
| 2018 | BigGAN | 大规模高质量GAN |
| 2019 | StyleGAN | 风格控制的人脸生成 |
| 2020 | DDPM | 扩散模型实用化 |
| 2021 | DALL-E / CLIP | 文本到图像 |
| 2022 | Stable Diffusion | 潜在扩散,开源生态 |
| 2022 | Imagen | 级联扩散 |
| 2023 | SDXL | 更高质量 |
| 2023 | Consistency Models | 少步/一步生成 |
| 2024 | SD3 / Flux | Flow Matching取代Diffusion |
| 2024 | Sora | 视频生成 |
4.2 范式迁移
graph LR
A[VAE 2013] --> B[GAN 2014-2021]
B --> C[Diffusion 2020-2024]
C --> D[Flow Matching 2024+]
E[RNN 2016] --> F[Transformer AR 2020+]
C -.-> G[Diffusion + AR 融合]
F -.-> G
关键观察:
- GAN时代(2014-2021):追求生成质量,但训练困难
- Diffusion时代(2020-2024):训练简单,质量超越GAN
- Flow Matching(2024+):更简洁的理论,更快的采样
- 融合趋势:AR + Diffusion(如Transfusion、MAR)
5. 混合架构
5.1 VAE + Diffusion(Latent Diffusion)
Stable Diffusion的核心架构:
- VAE编码器:图像 → 潜在空间
- Diffusion在潜在空间操作
- VAE解码器:潜在空间 → 图像
优势:在低维潜在空间做扩散,大幅降低计算量。
5.2 AR + Diffusion
- Transfusion:文本用AR,图像用Diffusion
- MAR(Masked Autoregressive):掩码自回归生成
- Fluid:连续token的自回归
5.3 GAN + Diffusion
- Consistency Models:蒸馏Diffusion模型为一步生成
- GAN用于加速:判别器指导Diffusion减少步数
6. 应用场景推荐
| 应用 | 推荐模型 | 理由 |
|---|---|---|
| 文本生成 | Autoregressive (LLM) | 离散token的最优选择 |
| 高质量图像 | Diffusion / Flow | 质量最高 |
| 实时图像生成 | GAN / 一致性模型 | 单步生成 |
| 图像编辑 | Diffusion + 引导 | 可控性最强 |
| 视频生成 | Diffusion / Flow | 时序一致性 |
| 3D生成 | Diffusion (SDS) | 与NeRF/3DGS结合 |
| 音乐/音频 | Diffusion / AR | 两者均有应用 |
| 数据增强 | VAE / GAN | 快速、轻量 |
| 表示学习 | VAE | 结构化潜在空间 |
| 异常检测 | VAE / Flow | 似然估计 |
7. 总结
核心要点:
- 没有万能的生成模型 — 选择取决于任务、质量、速度、可控性的权衡
- Diffusion/Flow是当前图像生成的主流 — 训练稳定、质量高
- Autoregressive是文本生成的主流 — LLM的核心范式
- 混合架构是趋势 — 结合不同模型的优势
- GAN并未消亡 — 在实时应用和判别器辅助训练中仍有价值
参考文献
- Kingma & Welling, "Auto-Encoding Variational Bayes," ICLR 2014
- Goodfellow et al., "Generative Adversarial Nets," NeurIPS 2014
- Ho et al., "Denoising Diffusion Probabilistic Models," NeurIPS 2020
- Lipman et al., "Flow Matching for Generative Modeling," ICLR 2023
- Esser et al., "Scaling Rectified Flow Transformers for High-Resolution Image Synthesis," ICML 2024