生成模型对比

概述

生成模型是深度学习中最活跃的研究方向之一。从VAE到GAN，从扩散模型到Flow Matching，再到自回归模型，每种范式都有独特的设计哲学和适用场景。本章对五大生成模型家族进行系统对比。

graph LR
    A[生成模型] --> B[VAE]
    A --> C[GAN]
    A --> D[Diffusion]
    A --> E[Flow]
    A --> F[Autoregressive]

    B --> B1[2013]
    C --> C1[2014]
    D --> D1[2020]
    E --> E1[2024]
    F --> F1[2016 PixelRNN]

1. 五大生成模型概览

1.1 VAE（Variational Autoencoder）

核心思想：学习数据的潜在分布，通过编码器-解码器结构实现生成。

\[ \mathcal{L}_{\text{VAE}} = \mathbb{E}_{q(z|x)}[\log p(x|z)] - D_{KL}(q(z|x) \| p(z)) \]

重建项 + KL散度正则项
潜在空间连续、可插值

1.2 GAN（Generative Adversarial Network）

核心思想：生成器与判别器的对抗博弈。

\[ \min_G \max_D \mathbb{E}_{x \sim p_{\text{data}}}[\log D(x)] + \mathbb{E}_{z \sim p_z}[\log(1 - D(G(z)))] \]

隐式密度模型（不显式建模分布）
生成质量高但训练不稳定

1.3 Diffusion Model

核心思想：通过逐步加噪再逐步去噪来学习数据分布。

\[ \mathcal{L}_{\text{simple}} = \mathbb{E}_{t, x_0, \epsilon}\left[\| \epsilon - \epsilon_\theta(x_t, t) \|^2\right] \]

训练稳定、生成质量极高
采样速度慢（需要多步去噪）

1.4 Flow-based Model

核心思想：通过可逆变换将简单分布映射到复杂分布。

\[ \log p(x) = \log p(z) + \log \left|\det \frac{\partial f^{-1}}{\partial x}\right| \]

Flow Matching（2024主流）：

\[ \mathcal{L}_{\text{FM}} = \mathbb{E}_{t, x_0, x_1}\left[\| v_\theta(x_t, t) - (x_1 - x_0) \|^2\right] \]

1.5 Autoregressive Model

核心思想：逐个token/pixel生成，建模条件概率链。

\[ p(x) = \prod_{i=1}^{n} p(x_i | x_1, \ldots, x_{i-1}) \]

精确的对数似然
生成速度慢（串行）

2. 全面对比

2.1 核心维度对比

维度	VAE	GAN	Diffusion	Flow	Autoregressive
训练稳定性	稳定	不稳定	非常稳定	稳定	稳定
生成质量	中（模糊）	高（锐利）	非常高	高	高
多样性	高	中（模式崩塌）	非常高	高	高
采样速度	快（一步）	快（一步）	慢（多步）	中	慢（串行）
似然估计	下界（ELBO）	无	下界	精确	精确
可控性	中	中	高	高	高
模式覆盖	好	差	好	好	好
内存需求	低	低	高	中	中
当前主流	作为组件	衰退	是	上升中	是（LLM）

2.2 训练对比

特性	VAE	GAN	Diffusion	Flow	Autoregressive
损失函数	ELBO	对抗损失	简单MSE	速度场MSE	交叉熵
训练目标	重建+正则	极小极大	去噪	速度匹配	下一token预测
超参敏感	低	高	低	低	低
收敛性	好	差	好	好	好

2.3 架构对比

特性	VAE	GAN	Diffusion	Flow	Autoregressive
典型架构	CNN/Transformer	CNN	U-Net/DiT	DiT	Transformer
潜在空间	连续	连续	像素/潜在	连续	离散token
条件机制	拼接/交叉注意力	条件BN	交叉注意力/CFG	交叉注意力	前缀/提示

3. 决策树

graph TD
    A[选择生成模型] --> B{任务类型?}
    B -->|文本生成| C[Autoregressive]
    B -->|图像生成| D{优先级?}
    B -->|视频生成| E[Diffusion/Flow]
    B -->|表示学习| F[VAE]

    D -->|质量优先| G{速度要求?}
    D -->|速度优先| H[GAN/VAE]
    D -->|可控性| I[Diffusion + CFG]

    G -->|可以慢| J[Diffusion]
    G -->|需要快| K[Flow Matching]

    C --> C1[GPT系列 / LLaMA]
    J --> J1[SDXL / DALL-E 3]
    K --> K1[SD3 / Flux]
    I --> I1[ControlNet + Diffusion]

4. 历史演进

4.1 时间线

年份	里程碑	意义
2013	VAE	变分推断 + 深度学习
2014	GAN	对抗训练范式
2015	DCGAN	GAN + CNN
2017	WGAN	解决GAN训练不稳定
2018	BigGAN	大规模高质量GAN
2019	StyleGAN	风格控制的人脸生成
2020	DDPM	扩散模型实用化
2021	DALL-E / CLIP	文本到图像
2022	Stable Diffusion	潜在扩散，开源生态
2022	Imagen	级联扩散
2023	SDXL	更高质量
2023	Consistency Models	少步/一步生成
2024	SD3 / Flux	Flow Matching取代Diffusion
2024	Sora	视频生成

4.2 范式迁移

graph LR
    A[VAE 2013] --> B[GAN 2014-2021]
    B --> C[Diffusion 2020-2024]
    C --> D[Flow Matching 2024+]

    E[RNN 2016] --> F[Transformer AR 2020+]

    C -.-> G[Diffusion + AR 融合]
    F -.-> G

关键观察：

GAN时代（2014-2021）：追求生成质量，但训练困难
Diffusion时代（2020-2024）：训练简单，质量超越GAN
Flow Matching（2024+）：更简洁的理论，更快的采样
融合趋势：AR + Diffusion（如Transfusion、MAR）

5. 混合架构

5.1 VAE + Diffusion（Latent Diffusion）

Stable Diffusion的核心架构：

VAE编码器：图像 → 潜在空间
Diffusion在潜在空间操作
VAE解码器：潜在空间 → 图像

优势：在低维潜在空间做扩散，大幅降低计算量。

5.2 AR + Diffusion

Transfusion：文本用AR，图像用Diffusion
MAR（Masked Autoregressive）：掩码自回归生成
Fluid：连续token的自回归

5.3 GAN + Diffusion

Consistency Models：蒸馏Diffusion模型为一步生成
GAN用于加速：判别器指导Diffusion减少步数

6. 应用场景推荐

应用	推荐模型	理由
文本生成	Autoregressive (LLM)	离散token的最优选择
高质量图像	Diffusion / Flow	质量最高
实时图像生成	GAN / 一致性模型	单步生成
图像编辑	Diffusion + 引导	可控性最强
视频生成	Diffusion / Flow	时序一致性
3D生成	Diffusion (SDS)	与NeRF/3DGS结合
音乐/音频	Diffusion / AR	两者均有应用
数据增强	VAE / GAN	快速、轻量
表示学习	VAE	结构化潜在空间
异常检测	VAE / Flow	似然估计

7. 总结

核心要点：

没有万能的生成模型 — 选择取决于任务、质量、速度、可控性的权衡
Diffusion/Flow是当前图像生成的主流 — 训练稳定、质量高
Autoregressive是文本生成的主流 — LLM的核心范式
混合架构是趋势 — 结合不同模型的优势
GAN并未消亡 — 在实时应用和判别器辅助训练中仍有价值

参考文献

Kingma & Welling, "Auto-Encoding Variational Bayes," ICLR 2014
Goodfellow et al., "Generative Adversarial Nets," NeurIPS 2014
Ho et al., "Denoising Diffusion Probabilistic Models," NeurIPS 2020
Lipman et al., "Flow Matching for Generative Modeling," ICLR 2023
Esser et al., "Scaling Rectified Flow Transformers for High-Resolution Image Synthesis," ICML 2024