跳转至

生成模型对比

概述

生成模型是深度学习中最活跃的研究方向之一。从VAE到GAN,从扩散模型到Flow Matching,再到自回归模型,每种范式都有独特的设计哲学和适用场景。本章对五大生成模型家族进行系统对比。

graph LR
    A[生成模型] --> B[VAE]
    A --> C[GAN]
    A --> D[Diffusion]
    A --> E[Flow]
    A --> F[Autoregressive]

    B --> B1[2013]
    C --> C1[2014]
    D --> D1[2020]
    E --> E1[2024]
    F --> F1[2016 PixelRNN]

1. 五大生成模型概览

1.1 VAE(Variational Autoencoder)

核心思想:学习数据的潜在分布,通过编码器-解码器结构实现生成。

\[ \mathcal{L}_{\text{VAE}} = \mathbb{E}_{q(z|x)}[\log p(x|z)] - D_{KL}(q(z|x) \| p(z)) \]
  • 重建项 + KL散度正则项
  • 潜在空间连续、可插值

1.2 GAN(Generative Adversarial Network)

核心思想:生成器与判别器的对抗博弈。

\[ \min_G \max_D \mathbb{E}_{x \sim p_{\text{data}}}[\log D(x)] + \mathbb{E}_{z \sim p_z}[\log(1 - D(G(z)))] \]
  • 隐式密度模型(不显式建模分布)
  • 生成质量高但训练不稳定

1.3 Diffusion Model

核心思想:通过逐步加噪再逐步去噪来学习数据分布。

\[ \mathcal{L}_{\text{simple}} = \mathbb{E}_{t, x_0, \epsilon}\left[\| \epsilon - \epsilon_\theta(x_t, t) \|^2\right] \]
  • 训练稳定、生成质量极高
  • 采样速度慢(需要多步去噪)

1.4 Flow-based Model

核心思想:通过可逆变换将简单分布映射到复杂分布。

\[ \log p(x) = \log p(z) + \log \left|\det \frac{\partial f^{-1}}{\partial x}\right| \]

Flow Matching(2024主流):

\[ \mathcal{L}_{\text{FM}} = \mathbb{E}_{t, x_0, x_1}\left[\| v_\theta(x_t, t) - (x_1 - x_0) \|^2\right] \]

1.5 Autoregressive Model

核心思想:逐个token/pixel生成,建模条件概率链。

\[ p(x) = \prod_{i=1}^{n} p(x_i | x_1, \ldots, x_{i-1}) \]
  • 精确的对数似然
  • 生成速度慢(串行)

2. 全面对比

2.1 核心维度对比

维度 VAE GAN Diffusion Flow Autoregressive
训练稳定性 稳定 不稳定 非常稳定 稳定 稳定
生成质量 中(模糊) 高(锐利) 非常高
多样性 中(模式崩塌) 非常高
采样速度 快(一步) 快(一步) 慢(多步) 慢(串行)
似然估计 下界(ELBO) 下界 精确 精确
可控性
模式覆盖
内存需求
当前主流 作为组件 衰退 上升中 是(LLM)

2.2 训练对比

特性 VAE GAN Diffusion Flow Autoregressive
损失函数 ELBO 对抗损失 简单MSE 速度场MSE 交叉熵
训练目标 重建+正则 极小极大 去噪 速度匹配 下一token预测
超参敏感
收敛性

2.3 架构对比

特性 VAE GAN Diffusion Flow Autoregressive
典型架构 CNN/Transformer CNN U-Net/DiT DiT Transformer
潜在空间 连续 连续 像素/潜在 连续 离散token
条件机制 拼接/交叉注意力 条件BN 交叉注意力/CFG 交叉注意力 前缀/提示

3. 决策树

graph TD
    A[选择生成模型] --> B{任务类型?}
    B -->|文本生成| C[Autoregressive]
    B -->|图像生成| D{优先级?}
    B -->|视频生成| E[Diffusion/Flow]
    B -->|表示学习| F[VAE]

    D -->|质量优先| G{速度要求?}
    D -->|速度优先| H[GAN/VAE]
    D -->|可控性| I[Diffusion + CFG]

    G -->|可以慢| J[Diffusion]
    G -->|需要快| K[Flow Matching]

    C --> C1[GPT系列 / LLaMA]
    J --> J1[SDXL / DALL-E 3]
    K --> K1[SD3 / Flux]
    I --> I1[ControlNet + Diffusion]

4. 历史演进

4.1 时间线

年份 里程碑 意义
2013 VAE 变分推断 + 深度学习
2014 GAN 对抗训练范式
2015 DCGAN GAN + CNN
2017 WGAN 解决GAN训练不稳定
2018 BigGAN 大规模高质量GAN
2019 StyleGAN 风格控制的人脸生成
2020 DDPM 扩散模型实用化
2021 DALL-E / CLIP 文本到图像
2022 Stable Diffusion 潜在扩散,开源生态
2022 Imagen 级联扩散
2023 SDXL 更高质量
2023 Consistency Models 少步/一步生成
2024 SD3 / Flux Flow Matching取代Diffusion
2024 Sora 视频生成

4.2 范式迁移

graph LR
    A[VAE 2013] --> B[GAN 2014-2021]
    B --> C[Diffusion 2020-2024]
    C --> D[Flow Matching 2024+]

    E[RNN 2016] --> F[Transformer AR 2020+]

    C -.-> G[Diffusion + AR 融合]
    F -.-> G

关键观察

  1. GAN时代(2014-2021):追求生成质量,但训练困难
  2. Diffusion时代(2020-2024):训练简单,质量超越GAN
  3. Flow Matching(2024+):更简洁的理论,更快的采样
  4. 融合趋势:AR + Diffusion(如Transfusion、MAR)

5. 混合架构

5.1 VAE + Diffusion(Latent Diffusion)

Stable Diffusion的核心架构:

  1. VAE编码器:图像 → 潜在空间
  2. Diffusion在潜在空间操作
  3. VAE解码器:潜在空间 → 图像

优势:在低维潜在空间做扩散,大幅降低计算量。

5.2 AR + Diffusion

  • Transfusion:文本用AR,图像用Diffusion
  • MAR(Masked Autoregressive):掩码自回归生成
  • Fluid:连续token的自回归

5.3 GAN + Diffusion

  • Consistency Models:蒸馏Diffusion模型为一步生成
  • GAN用于加速:判别器指导Diffusion减少步数

6. 应用场景推荐

应用 推荐模型 理由
文本生成 Autoregressive (LLM) 离散token的最优选择
高质量图像 Diffusion / Flow 质量最高
实时图像生成 GAN / 一致性模型 单步生成
图像编辑 Diffusion + 引导 可控性最强
视频生成 Diffusion / Flow 时序一致性
3D生成 Diffusion (SDS) 与NeRF/3DGS结合
音乐/音频 Diffusion / AR 两者均有应用
数据增强 VAE / GAN 快速、轻量
表示学习 VAE 结构化潜在空间
异常检测 VAE / Flow 似然估计

7. 总结

核心要点

  1. 没有万能的生成模型 — 选择取决于任务、质量、速度、可控性的权衡
  2. Diffusion/Flow是当前图像生成的主流 — 训练稳定、质量高
  3. Autoregressive是文本生成的主流 — LLM的核心范式
  4. 混合架构是趋势 — 结合不同模型的优势
  5. GAN并未消亡 — 在实时应用和判别器辅助训练中仍有价值

参考文献

  • Kingma & Welling, "Auto-Encoding Variational Bayes," ICLR 2014
  • Goodfellow et al., "Generative Adversarial Nets," NeurIPS 2014
  • Ho et al., "Denoising Diffusion Probabilistic Models," NeurIPS 2020
  • Lipman et al., "Flow Matching for Generative Modeling," ICLR 2023
  • Esser et al., "Scaling Rectified Flow Transformers for High-Resolution Image Synthesis," ICML 2024

评论 #