Skip to content

生成式基座模型 (Generative Foundation Models)

概述

生成式基座模型是指能够根据条件输入生成高质量内容(图像、视频、3D、音频等)的大规模预训练模型。与判别式基座模型不同,生成式基座的核心是学习数据的分布并从中采样。

核心范式:从 "理解世界" 到 "创造世界"。

生成式基座模型谱系:

文本 → 图像:Stable Diffusion, DALL-E, Midjourney
文本 → 视频:Sora, Runway Gen-3, Kling
文本 → 3D:  DreamFusion, Zero-1-to-3
文本 → 音频:AudioLM, MusicGen, Bark
任意 → 任意:统一生成模型 (CoDi, NExT-GPT)

Diffusion 作为生成基座

Diffusion Model 是当前最主流的生成式基座。详细原理请参考 Diffusion 笔记

核心回顾

Diffusion Model 通过两个过程定义:

前向过程 (加噪)

\[ q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t} x_{t-1}, \beta_t I) \]

反向过程 (去噪)

\[ p_\theta(x_{t-1} | x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \Sigma_\theta(x_t, t)) \]

训练目标简化为噪声预测:

\[ \mathcal{L}_{\text{simple}} = \mathbb{E}_{t, x_0, \epsilon} \left[ \| \epsilon - \epsilon_\theta(x_t, t) \|^2 \right] \]

条件生成:Classifier-Free Guidance (CFG)

CFG 是控制生成质量与条件一致性的关键技术:

\[ \hat{\epsilon}_\theta(x_t, c) = (1 + w) \epsilon_\theta(x_t, c) - w \epsilon_\theta(x_t, \varnothing) \]

其中 \(w\) 是 guidance scale,\(c\) 是条件(如文本),\(\varnothing\) 是空条件。\(w\) 越大,生成结果越贴近条件但多样性降低。


DiT:Transformer 替代 U-Net

Peebles & Xie (2023) 提出的 DiT (Diffusion Transformer) 用 Transformer 替代了传统的 U-Net 骨干。详细内容请参考 DiT 笔记

核心改进

传统 Diffusion:  Noise → U-Net (CNN-based) → Denoised Image
DiT:            Noise → Transformer (ViT-based) → Denoised Image
  • 将噪声图像分为 patch,类似 ViT 处理
  • 时间步 \(t\) 和条件 \(c\) 通过 AdaLN-Zero 注入
  • Scaling Law 同样适用:更大的 DiT 生成质量更高

DiT 的成功证明了 Transformer 在生成任务上同样具有优越的 scaling 特性,成为后续大规模生成模型(如 Sora)的技术基础。


文本到图像 (Text-to-Image)

Stable Diffusion (Stability AI)

基于 Latent Diffusion Model (LDM),在压缩的 latent space 中做扩散,大幅降低计算成本。

Stable Diffusion 架构:

Text → CLIP Text Encoder → Text Embeddings
                                ↓ (Cross-Attention)
Random Noise → U-Net (Latent Space) → Denoised Latent
                                ↓
                   VAE Decoder → Image (512x512 / 1024x1024)

关键组件:

  • VAE:将像素空间压缩到 latent space(通常 \(8 \times\) 下采样)
  • U-Net / DiT:在 latent space 执行去噪
  • Text Encoder:CLIP 或 T5 编码文本条件
  • Scheduler:控制采样步骤(DDPM、DDIM、DPM-Solver 等)

版本演进:

版本 骨干 分辨率 文本编码器
SD 1.5 U-Net 512x512 CLIP ViT-L/14
SDXL U-Net (更大) 1024x1024 CLIP + OpenCLIP
SD 3 DiT (MMDiT) 多分辨率 CLIP + T5-XXL

DALL-E 系列 (OpenAI)

  • DALL-E (2021):基于 VQ-VAE + Autoregressive Transformer
  • DALL-E 2 (2022):基于 CLIP + Diffusion(unCLIP 架构)
  • DALL-E 3 (2023):改进文本理解,使用 T5 重写 caption 提升 text-image 对齐

Midjourney

商业化最成功的文生图产品,以艺术风格著称。具体技术细节未公开。


文本到视频 (Text-to-Video)

Sora (OpenAI, 2024)

Sora 是文生视频领域的标志性模型,展示了 "视频作为世界模拟器" 的潜力。

核心技术推测:

Sora 架构 (推测):

Video → VAE (时空压缩) → Spacetime Latent Patches
                              ↓
Text → Text Encoder → Conditioning
                              ↓
              DiT (Spacetime Transformer)
                              ↓
              VAE Decoder → Video Output

关键特点:

  • 时空 Patch:将视频视为 3D patch 序列,统一处理不同分辨率和时长
  • DiT 骨干:继承了 DiT 的 scaling 特性
  • 长视频生成:可生成最长 1 分钟的连贯视频
  • 物理理解:展示了一定程度的 3D 一致性和物理规律理解

其他视频生成模型

模型 机构 特点
Runway Gen-3 Runway 商用级视频生成,支持多种控制方式
Kling 快手 长视频生成,物理模拟能力强
Pika Pika Labs 面向消费者的视频编辑和生成
CogVideo 智谱 开源视频生成模型

文本到 3D (Text-to-3D)

文本到 3D 生成是一个快速发展的领域,核心挑战在于 3D 数据的稀缺。

基于优化的方法

DreamFusion (Poole et al., 2022):

核心思想:利用预训练的 2D diffusion model 提供梯度信号,优化 3D 表示(NeRF)。

\[ \nabla_\theta \mathcal{L}_{\text{SDS}} = \mathbb{E}_{t, \epsilon} \left[ w(t) (\epsilon_\phi(x_t; y, t) - \epsilon) \frac{\partial x}{\partial \theta} \right] \]

其中 SDS (Score Distillation Sampling) 损失将 2D diffusion 的知识蒸馏到 3D 模型中。

基于前馈的方法

  • Zero-1-to-3 (2023):给定单张图像,生成多视角图像
  • LRM (Large Reconstruction Model, 2023):Transformer 直接预测 3D 表示
  • InstantMesh (2024):结合多视角生成与 3D 重建

文本到音频 (Text-to-Audio)

AudioLM (Google, 2022)

将音频建模为离散 token 序列,用 language model 范式生成音频。

AudioLM 流程:

Audio → Neural Codec (如 SoundStream) → Discrete Tokens
Tokens → Transformer Language Model → Generated Tokens
Generated Tokens → Codec Decoder → Audio Waveform

MusicGen (Meta, 2023)

专注于音乐生成的模型:

  • 使用 EnCodec 将音频编码为多层离散 token
  • 提出 "delay pattern" 解决多 codebook 的并行生成问题
  • 支持文本描述和旋律作为条件输入

其他音频生成模型

模型 类型 特点
Bark (Suno) 语音生成 支持多语言、非语言声音
Stable Audio 音乐/音效 基于 Latent Diffusion
VALL-E (Microsoft) 语音克隆 3 秒参考音频即可克隆声音

统一生成:Any-to-Any 模型

统一生成模型的目标是在一个模型中支持任意模态之间的转换。

两种技术路线

路线 A:LLM 作为大脑 + 外接生成模型

路线 A:

输入 (任意模态) → Encoder → LLM (理解 + 规划) → 指令
                                                    ↓
                              外接生成模型 (Diffusion/Codec) → 输出 (任意模态)

代表模型:NExT-GPT, Visual ChatGPT

优势:复用现有强大的单模态生成模型。

劣势:端到端优化困难,模块间信息损失。

路线 B:统一离散 token 体系

路线 B:

输入 (任意模态) → VQ Tokenizer → Discrete Tokens → Transformer → Output Tokens → Detokenizer → 输出

代表模型:Chameleon (Meta), Gemini

优势:端到端训练,模态间自然交互。

劣势:离散化会损失信息,训练难度大。

代表模型

  • CoDi (Microsoft):通过对齐多模态 latent space 实现 any-to-any 生成
  • Chameleon (Meta, 2024):将文本和图像统一为离散 token,用单一 Transformer 处理
  • Gemini (Google):原生多模态,支持文本、图像、音频、视频的输入和输出

生成式基座的统一视角

无论是图像、视频、3D 还是音频生成,其核心都可以归纳为:

\[ p_\theta(x | c) = \text{GenerativeModel}(c; \theta) \]

其中 \(c\) 是条件(文本、图像等),\(x\) 是目标模态的输出。

生成式基座的统一框架:

条件 c → 条件编码器 → 条件特征
                         ↓
噪声/初始 token → 生成骨干 (DiT / Autoregressive) → 去噪/解码
                         ↓
                    解码器 → 目标模态输出

当前趋势:

  1. 骨干统一:DiT 逐步成为图像和视频生成的标准架构
  2. 模态扩展:从文生图到文生视频、3D、音频
  3. 质量提升:通过 scaling、更好的数据、更强的条件注入持续改进
  4. 可控性:ControlNet、IP-Adapter 等技术实现精细控制
  5. Flow Matching:作为 Diffusion 的替代/改进,提供更直接的训练目标(详见 Flow Matching 笔记

评论 #