生成式基座模型 (Generative Foundation Models)
概述
生成式基座模型是指能够根据条件输入生成高质量内容(图像、视频、3D、音频等)的大规模预训练模型。与判别式基座模型不同,生成式基座的核心是学习数据的分布并从中采样。
核心范式:从 "理解世界" 到 "创造世界"。
生成式基座模型谱系:
文本 → 图像:Stable Diffusion, DALL-E, Midjourney
文本 → 视频:Sora, Runway Gen-3, Kling
文本 → 3D: DreamFusion, Zero-1-to-3
文本 → 音频:AudioLM, MusicGen, Bark
任意 → 任意:统一生成模型 (CoDi, NExT-GPT)
Diffusion 作为生成基座
Diffusion Model 是当前最主流的生成式基座。详细原理请参考 Diffusion 笔记。
核心回顾
Diffusion Model 通过两个过程定义:
前向过程 (加噪):
反向过程 (去噪):
训练目标简化为噪声预测:
条件生成:Classifier-Free Guidance (CFG)
CFG 是控制生成质量与条件一致性的关键技术:
其中 \(w\) 是 guidance scale,\(c\) 是条件(如文本),\(\varnothing\) 是空条件。\(w\) 越大,生成结果越贴近条件但多样性降低。
DiT:Transformer 替代 U-Net
Peebles & Xie (2023) 提出的 DiT (Diffusion Transformer) 用 Transformer 替代了传统的 U-Net 骨干。详细内容请参考 DiT 笔记。
核心改进
传统 Diffusion: Noise → U-Net (CNN-based) → Denoised Image
DiT: Noise → Transformer (ViT-based) → Denoised Image
- 将噪声图像分为 patch,类似 ViT 处理
- 时间步 \(t\) 和条件 \(c\) 通过 AdaLN-Zero 注入
- Scaling Law 同样适用:更大的 DiT 生成质量更高
DiT 的成功证明了 Transformer 在生成任务上同样具有优越的 scaling 特性,成为后续大规模生成模型(如 Sora)的技术基础。
文本到图像 (Text-to-Image)
Stable Diffusion (Stability AI)
基于 Latent Diffusion Model (LDM),在压缩的 latent space 中做扩散,大幅降低计算成本。
Stable Diffusion 架构:
Text → CLIP Text Encoder → Text Embeddings
↓ (Cross-Attention)
Random Noise → U-Net (Latent Space) → Denoised Latent
↓
VAE Decoder → Image (512x512 / 1024x1024)
关键组件:
- VAE:将像素空间压缩到 latent space(通常 \(8 \times\) 下采样)
- U-Net / DiT:在 latent space 执行去噪
- Text Encoder:CLIP 或 T5 编码文本条件
- Scheduler:控制采样步骤(DDPM、DDIM、DPM-Solver 等)
版本演进:
| 版本 | 骨干 | 分辨率 | 文本编码器 |
|---|---|---|---|
| SD 1.5 | U-Net | 512x512 | CLIP ViT-L/14 |
| SDXL | U-Net (更大) | 1024x1024 | CLIP + OpenCLIP |
| SD 3 | DiT (MMDiT) | 多分辨率 | CLIP + T5-XXL |
DALL-E 系列 (OpenAI)
- DALL-E (2021):基于 VQ-VAE + Autoregressive Transformer
- DALL-E 2 (2022):基于 CLIP + Diffusion(unCLIP 架构)
- DALL-E 3 (2023):改进文本理解,使用 T5 重写 caption 提升 text-image 对齐
Midjourney
商业化最成功的文生图产品,以艺术风格著称。具体技术细节未公开。
文本到视频 (Text-to-Video)
Sora (OpenAI, 2024)
Sora 是文生视频领域的标志性模型,展示了 "视频作为世界模拟器" 的潜力。
核心技术推测:
Sora 架构 (推测):
Video → VAE (时空压缩) → Spacetime Latent Patches
↓
Text → Text Encoder → Conditioning
↓
DiT (Spacetime Transformer)
↓
VAE Decoder → Video Output
关键特点:
- 时空 Patch:将视频视为 3D patch 序列,统一处理不同分辨率和时长
- DiT 骨干:继承了 DiT 的 scaling 特性
- 长视频生成:可生成最长 1 分钟的连贯视频
- 物理理解:展示了一定程度的 3D 一致性和物理规律理解
其他视频生成模型
| 模型 | 机构 | 特点 |
|---|---|---|
| Runway Gen-3 | Runway | 商用级视频生成,支持多种控制方式 |
| Kling | 快手 | 长视频生成,物理模拟能力强 |
| Pika | Pika Labs | 面向消费者的视频编辑和生成 |
| CogVideo | 智谱 | 开源视频生成模型 |
文本到 3D (Text-to-3D)
文本到 3D 生成是一个快速发展的领域,核心挑战在于 3D 数据的稀缺。
基于优化的方法
DreamFusion (Poole et al., 2022):
核心思想:利用预训练的 2D diffusion model 提供梯度信号,优化 3D 表示(NeRF)。
其中 SDS (Score Distillation Sampling) 损失将 2D diffusion 的知识蒸馏到 3D 模型中。
基于前馈的方法
- Zero-1-to-3 (2023):给定单张图像,生成多视角图像
- LRM (Large Reconstruction Model, 2023):Transformer 直接预测 3D 表示
- InstantMesh (2024):结合多视角生成与 3D 重建
文本到音频 (Text-to-Audio)
AudioLM (Google, 2022)
将音频建模为离散 token 序列,用 language model 范式生成音频。
AudioLM 流程:
Audio → Neural Codec (如 SoundStream) → Discrete Tokens
Tokens → Transformer Language Model → Generated Tokens
Generated Tokens → Codec Decoder → Audio Waveform
MusicGen (Meta, 2023)
专注于音乐生成的模型:
- 使用 EnCodec 将音频编码为多层离散 token
- 提出 "delay pattern" 解决多 codebook 的并行生成问题
- 支持文本描述和旋律作为条件输入
其他音频生成模型
| 模型 | 类型 | 特点 |
|---|---|---|
| Bark (Suno) | 语音生成 | 支持多语言、非语言声音 |
| Stable Audio | 音乐/音效 | 基于 Latent Diffusion |
| VALL-E (Microsoft) | 语音克隆 | 3 秒参考音频即可克隆声音 |
统一生成:Any-to-Any 模型
统一生成模型的目标是在一个模型中支持任意模态之间的转换。
两种技术路线
路线 A:LLM 作为大脑 + 外接生成模型
路线 A:
输入 (任意模态) → Encoder → LLM (理解 + 规划) → 指令
↓
外接生成模型 (Diffusion/Codec) → 输出 (任意模态)
代表模型:NExT-GPT, Visual ChatGPT
优势:复用现有强大的单模态生成模型。
劣势:端到端优化困难,模块间信息损失。
路线 B:统一离散 token 体系
路线 B:
输入 (任意模态) → VQ Tokenizer → Discrete Tokens → Transformer → Output Tokens → Detokenizer → 输出
代表模型:Chameleon (Meta), Gemini
优势:端到端训练,模态间自然交互。
劣势:离散化会损失信息,训练难度大。
代表模型
- CoDi (Microsoft):通过对齐多模态 latent space 实现 any-to-any 生成
- Chameleon (Meta, 2024):将文本和图像统一为离散 token,用单一 Transformer 处理
- Gemini (Google):原生多模态,支持文本、图像、音频、视频的输入和输出
生成式基座的统一视角
无论是图像、视频、3D 还是音频生成,其核心都可以归纳为:
其中 \(c\) 是条件(文本、图像等),\(x\) 是目标模态的输出。
生成式基座的统一框架:
条件 c → 条件编码器 → 条件特征
↓
噪声/初始 token → 生成骨干 (DiT / Autoregressive) → 去噪/解码
↓
解码器 → 目标模态输出
当前趋势:
- 骨干统一:DiT 逐步成为图像和视频生成的标准架构
- 模态扩展:从文生图到文生视频、3D、音频
- 质量提升:通过 scaling、更好的数据、更强的条件注入持续改进
- 可控性:ControlNet、IP-Adapter 等技术实现精细控制
- Flow Matching:作为 Diffusion 的替代/改进,提供更直接的训练目标(详见 Flow Matching 笔记)