生成式基座模型 (Generative Foundation Models)

概述

生成式基座模型是指能够根据条件输入生成高质量内容（图像、视频、3D、音频等）的大规模预训练模型。与判别式基座模型不同，生成式基座的核心是学习数据的分布并从中采样。

核心范式：从 "理解世界" 到 "创造世界"。

生成式基座模型谱系：

文本 → 图像：Stable Diffusion, DALL-E, Midjourney
文本 → 视频：Sora, Runway Gen-3, Kling
文本 → 3D：  DreamFusion, Zero-1-to-3
文本 → 音频：AudioLM, MusicGen, Bark
任意 → 任意：统一生成模型 (CoDi, NExT-GPT)

Diffusion 作为生成基座

Diffusion Model 是当前最主流的生成式基座。详细原理请参考 Diffusion 笔记。

核心回顾

Diffusion Model 通过两个过程定义：

前向过程 (加噪)：

\[ q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t} x_{t-1}, \beta_t I) \]

反向过程 (去噪)：

\[ p_\theta(x_{t-1} | x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \Sigma_\theta(x_t, t)) \]

训练目标简化为噪声预测：

\[ \mathcal{L}_{\text{simple}} = \mathbb{E}_{t, x_0, \epsilon} \left[ \| \epsilon - \epsilon_\theta(x_t, t) \|^2 \right] \]

条件生成：Classifier-Free Guidance (CFG)

CFG 是控制生成质量与条件一致性的关键技术：

\[ \hat{\epsilon}_\theta(x_t, c) = (1 + w) \epsilon_\theta(x_t, c) - w \epsilon_\theta(x_t, \varnothing) \]

其中 \(w\) 是 guidance scale，\(c\) 是条件（如文本），\(\varnothing\) 是空条件。\(w\) 越大，生成结果越贴近条件但多样性降低。

DiT：Transformer 替代 U-Net

Peebles & Xie (2023) 提出的 DiT (Diffusion Transformer) 用 Transformer 替代了传统的 U-Net 骨干。详细内容请参考 DiT 笔记。

核心改进

传统 Diffusion：  Noise → U-Net (CNN-based) → Denoised Image
DiT：            Noise → Transformer (ViT-based) → Denoised Image

将噪声图像分为 patch，类似 ViT 处理
时间步 \(t\) 和条件 \(c\) 通过 AdaLN-Zero 注入
Scaling Law 同样适用：更大的 DiT 生成质量更高

DiT 的成功证明了 Transformer 在生成任务上同样具有优越的 scaling 特性，成为后续大规模生成模型（如 Sora）的技术基础。

文本到图像 (Text-to-Image)

Stable Diffusion (Stability AI)

基于 Latent Diffusion Model (LDM)，在压缩的 latent space 中做扩散，大幅降低计算成本。

Stable Diffusion 架构：

Text → CLIP Text Encoder → Text Embeddings
                                ↓ (Cross-Attention)
Random Noise → U-Net (Latent Space) → Denoised Latent
                                ↓
                   VAE Decoder → Image (512x512 / 1024x1024)

关键组件：

VAE：将像素空间压缩到 latent space（通常 \(8 \times\) 下采样）
U-Net / DiT：在 latent space 执行去噪
Text Encoder：CLIP 或 T5 编码文本条件
Scheduler：控制采样步骤（DDPM、DDIM、DPM-Solver 等）

版本演进：

版本	骨干	分辨率	文本编码器
SD 1.5	U-Net	512x512	CLIP ViT-L/14
SDXL	U-Net (更大)	1024x1024	CLIP + OpenCLIP
SD 3	DiT (MMDiT)	多分辨率	CLIP + T5-XXL

DALL-E 系列 (OpenAI)

DALL-E (2021)：基于 VQ-VAE + Autoregressive Transformer
DALL-E 2 (2022)：基于 CLIP + Diffusion（unCLIP 架构）
DALL-E 3 (2023)：改进文本理解，使用 T5 重写 caption 提升 text-image 对齐

Midjourney

商业化最成功的文生图产品，以艺术风格著称。具体技术细节未公开。

文本到视频 (Text-to-Video)

Sora (OpenAI, 2024)

Sora 是文生视频领域的标志性模型，展示了 "视频作为世界模拟器" 的潜力。

核心技术推测：

Sora 架构 (推测)：

Video → VAE (时空压缩) → Spacetime Latent Patches
                              ↓
Text → Text Encoder → Conditioning
                              ↓
              DiT (Spacetime Transformer)
                              ↓
              VAE Decoder → Video Output

关键特点：

时空 Patch：将视频视为 3D patch 序列，统一处理不同分辨率和时长
DiT 骨干：继承了 DiT 的 scaling 特性
长视频生成：可生成最长 1 分钟的连贯视频
物理理解：展示了一定程度的 3D 一致性和物理规律理解

其他视频生成模型

模型	机构	特点
Runway Gen-3	Runway	商用级视频生成，支持多种控制方式
Kling	快手	长视频生成，物理模拟能力强
Pika	Pika Labs	面向消费者的视频编辑和生成
CogVideo	智谱	开源视频生成模型

文本到 3D (Text-to-3D)

文本到 3D 生成是一个快速发展的领域，核心挑战在于 3D 数据的稀缺。

基于优化的方法

DreamFusion (Poole et al., 2022)：

核心思想：利用预训练的 2D diffusion model 提供梯度信号，优化 3D 表示（NeRF）。

\[ \nabla_\theta \mathcal{L}_{\text{SDS}} = \mathbb{E}_{t, \epsilon} \left[ w(t) (\epsilon_\phi(x_t; y, t) - \epsilon) \frac{\partial x}{\partial \theta} \right] \]

其中 SDS (Score Distillation Sampling) 损失将 2D diffusion 的知识蒸馏到 3D 模型中。

基于前馈的方法

Zero-1-to-3 (2023)：给定单张图像，生成多视角图像
LRM (Large Reconstruction Model, 2023)：Transformer 直接预测 3D 表示
InstantMesh (2024)：结合多视角生成与 3D 重建

文本到音频 (Text-to-Audio)

AudioLM (Google, 2022)

将音频建模为离散 token 序列，用 language model 范式生成音频。

AudioLM 流程：

Audio → Neural Codec (如 SoundStream) → Discrete Tokens
Tokens → Transformer Language Model → Generated Tokens
Generated Tokens → Codec Decoder → Audio Waveform

MusicGen (Meta, 2023)

专注于音乐生成的模型：

使用 EnCodec 将音频编码为多层离散 token
提出 "delay pattern" 解决多 codebook 的并行生成问题
支持文本描述和旋律作为条件输入

其他音频生成模型

模型	类型	特点
Bark (Suno)	语音生成	支持多语言、非语言声音
Stable Audio	音乐/音效	基于 Latent Diffusion
VALL-E (Microsoft)	语音克隆	3 秒参考音频即可克隆声音

统一生成：Any-to-Any 模型

统一生成模型的目标是在一个模型中支持任意模态之间的转换。

两种技术路线

路线 A：LLM 作为大脑 + 外接生成模型

路线 A：

输入 (任意模态) → Encoder → LLM (理解 + 规划) → 指令
                                                    ↓
                              外接生成模型 (Diffusion/Codec) → 输出 (任意模态)

代表模型：NExT-GPT, Visual ChatGPT

优势：复用现有强大的单模态生成模型。

劣势：端到端优化困难，模块间信息损失。

路线 B：统一离散 token 体系

路线 B：

输入 (任意模态) → VQ Tokenizer → Discrete Tokens → Transformer → Output Tokens → Detokenizer → 输出

代表模型：Chameleon (Meta), Gemini

优势：端到端训练，模态间自然交互。

劣势：离散化会损失信息，训练难度大。

代表模型

CoDi (Microsoft)：通过对齐多模态 latent space 实现 any-to-any 生成
Chameleon (Meta, 2024)：将文本和图像统一为离散 token，用单一 Transformer 处理
Gemini (Google)：原生多模态，支持文本、图像、音频、视频的输入和输出

生成式基座的统一视角

无论是图像、视频、3D 还是音频生成，其核心都可以归纳为：

\[ p_\theta(x | c) = \text{GenerativeModel}(c; \theta) \]

其中 \(c\) 是条件（文本、图像等），\(x\) 是目标模态的输出。

生成式基座的统一框架：

条件 c → 条件编码器 → 条件特征
                         ↓
噪声/初始 token → 生成骨干 (DiT / Autoregressive) → 去噪/解码
                         ↓
                    解码器 → 目标模态输出

当前趋势：

骨干统一：DiT 逐步成为图像和视频生成的标准架构
模态扩展：从文生图到文生视频、3D、音频
质量提升：通过 scaling、更好的数据、更强的条件注入持续改进
可控性：ControlNet、IP-Adapter 等技术实现精细控制
Flow Matching：作为 Diffusion 的替代/改进，提供更直接的训练目标（详见 Flow Matching 笔记）