多模态学习
概述
多模态学习旨在联合理解和生成来自不同模态(文本、图像、音频、视频等)的信息。从CLIP的对比预训练到LLaVA的视觉指令微调,多模态模型正在走向统一的智能体架构。
graph TD
A[多模态学习] --> B[对比预训练]
A --> C[生成式预训练]
A --> D[多模态大模型]
A --> E[音频模型]
B --> B1[CLIP]
B --> B2[SigLIP]
B --> B3[ALIGN]
C --> C1[BLIP]
C --> C2[BLIP-2]
C --> C3[CoCa]
D --> D1[LLaVA]
D --> D2[GPT-4V]
D --> D3[Gemini]
E --> E1[Whisper]
E --> E2[AudioLM]
subgraph 融合策略
F1[Early Fusion]
F2[Late Fusion]
F3[Cross-Attention]
end
1. CLIP:对比语言-图像预训练
1.1 核心思想
CLIP(Contrastive Language-Image Pre-training, Radford et al., 2021)通过大规模图文对比学习,将图像和文本映射到共享的嵌入空间。
训练目标:
对于一个batch中的 \(N\) 个图文对 \((I_i, T_i)\):
\[
\mathcal{L}_{\text{CLIP}} = -\frac{1}{2N}\sum_{i=1}^{N}\left[\log\frac{\exp(s_{i,i}/\tau)}{\sum_{j=1}^{N}\exp(s_{i,j}/\tau)} + \log\frac{\exp(s_{i,i}/\tau)}{\sum_{j=1}^{N}\exp(s_{j,i}/\tau)}\right]
\]
其中 \(s_{i,j} = f_I(I_i)^\top f_T(T_j)\) 是图像和文本嵌入的相似度。
1.2 架构
- 图像编码器:ViT(如ViT-L/14)或ResNet
- 文本编码器:Transformer
- 投影层:将两个编码器的输出映射到共享空间
1.3 零样本分类
无需微调即可用于图像分类:
- 构造文本提示:
"a photo of a {class}" - 计算图像与所有类别文本的相似度
- 选择最高相似度的类别
1.4 CLIP的变体
| 模型 | 改进 |
|---|---|
| OpenCLIP | 开源实现,更大规模训练 |
| SigLIP | Sigmoid替代Softmax,无需大batch |
| ALIGN | 更大规模噪声数据 |
| EVA-CLIP | 更强的视觉编码器 |
| MetaCLIP | 数据策展策略优化 |
2. BLIP系列
2.1 BLIP
BLIP(Bootstrapping Language-Image Pre-training):统一理解和生成。
三个预训练任务:
- ITC(Image-Text Contrastive):对比学习
- ITM(Image-Text Matching):二分类匹配
- LM(Language Modeling):图像条件的文本生成
CapFilt:用自训练的方式过滤噪声数据 + 生成高质量描述。
2.2 BLIP-2
BLIP-2(Li et al., 2023):用轻量的Q-Former桥接冻结的视觉和语言模型。
架构:
\[
\text{Image} \xrightarrow{\text{Frozen ViT}} \text{Features} \xrightarrow{\text{Q-Former}} \text{Visual Tokens} \xrightarrow{\text{Frozen LLM}} \text{Output}
\]
Q-Former:
- 一组可学习的query token(32个)
- 通过交叉注意力从视觉特征中提取信息
- 两阶段训练:
- 视觉-语言表示学习(ITC + ITM + LM)
- 视觉到语言生成学习(连接LLM)
优势:仅训练Q-Former(188M参数),冻结视觉和语言大模型。
3. LLaVA:视觉指令微调
3.1 LLaVA
LLaVA(Visual Instruction Tuning, Liu et al., 2023):简洁而有效的多模态大模型。
架构:
\[
\text{Image} \xrightarrow{\text{CLIP ViT}} \text{Visual Features} \xrightarrow{W} \text{Visual Tokens} \xrightarrow{\text{LLM}} \text{Response}
\]
其中 \(W\) 是一个简单的线性投影层。
两阶段训练:
- 预训练:冻结ViT和LLM,只训练投影层 \(W\)(558K图文对)
- 指令微调:解冻LLM,在视觉指令数据上微调(665K样本)
3.2 LLaVA-1.5
改进:
- 投影层从线性改为2层MLP
- 更高分辨率输入(336×336)
- 更多的指令微调数据
- 使用Vicuna 13B作为LLM
3.3 LLaVA-NeXT / LLaVA-OneVision
- 动态高分辨率:将图像切成多个tile
- 支持视频理解
- 更强的LLM基座
4. 多模态融合策略
4.1 三种融合方式
graph TD
subgraph "Early Fusion 早期融合"
A1[Image Tokens] --> M1[Combined Input]
A2[Text Tokens] --> M1
M1 --> T1[Unified Transformer]
end
subgraph "Late Fusion 晚期融合"
B1[Image] --> E1[Image Encoder]
B2[Text] --> E2[Text Encoder]
E1 --> F1[Fusion Layer]
E2 --> F1
end
subgraph "Cross-Attention 交叉注意力"
C1[Image Features] --> CA[Cross-Attention]
C2[Text Features] --> CA
CA --> O1[Output]
end
4.2 详细对比
| 融合方式 | 描述 | 优点 | 缺点 | 代表模型 |
|---|---|---|---|---|
| 早期融合 | 将所有模态token拼接后统一处理 | 充分交互 | 计算量大 | Fuyu, Gemini |
| 晚期融合 | 各模态独立编码,最后融合 | 高效、模块化 | 交互不够深 | CLIP |
| 交叉注意力 | 一个模态查询另一个模态 | 平衡效率与交互 | 需要设计注意力模式 | Flamingo, BLIP-2 |
| 投影式 | 线性/MLP投影到LLM空间 | 简单高效 | 信息压缩 | LLaVA |
4.3 视觉Token的处理
| 方法 | 视觉Token数 | 信息保留 | 计算开销 |
|---|---|---|---|
| 全部保留 | 576+(ViT-L/14@336) | 最完整 | 最大 |
| Q-Former | 32-64 | 中等 | 小 |
| Perceiver Resampler | 64-256 | 中等 | 中等 |
| 下采样/池化 | 可调 | 可调 | 小 |
5. 音频多模态:Whisper
5.1 Whisper
Whisper(Radford et al., 2023):大规模弱监督语音识别。
关键设计:
- 680,000小时多语言音频数据
- 编码器-解码器Transformer架构
- 多任务训练:转录、翻译、语言检测、时间戳
输入处理:
- 音频 → 梅尔频谱图(80通道,30秒窗口)
- 两层1D卷积
- 正弦位置编码
- Transformer编码器
5.2 音频-语言模型
| 模型 | 能力 |
|---|---|
| Whisper | 语音识别、翻译 |
| AudioLM | 音频生成 |
| MusicLM | 音乐生成 |
| Qwen-Audio | 音频理解+对话 |
| SALMONN | 语音+音频+音乐理解 |
6. 统一多模态架构
6.1 当前主流架构
| 模型 | 视觉编码器 | 连接器 | LLM | 特点 |
|---|---|---|---|---|
| GPT-4V/4o | 未公开 | 未公开 | GPT-4 | 最强商业模型 |
| Gemini | 原生多模态 | 无需 | - | 端到端多模态 |
| Claude 3 | 未公开 | 未公开 | Claude | 强视觉理解 |
| LLaVA-1.5 | CLIP ViT-L | MLP | Vicuna | 开源标杆 |
| InternVL | InternViT | QLLaMA | InternLM | 强开源模型 |
| Qwen-VL | ViT + 压缩 | 交叉注意力 | Qwen | 中文优势 |
6.2 发展趋势
- 原生多模态:不再是"视觉编码器+LLM"拼接,而是统一架构
- 任意到任意:输入/输出支持任意模态组合
- 更多模态:3D、触觉、机器人动作
- 实时交互:流式多模态对话(GPT-4o)
7. 总结
| 方法 | 时期 | 核心创新 | 影响 |
|---|---|---|---|
| CLIP | 2021 | 对比图文预训练 | 开启零样本视觉 |
| BLIP-2 | 2023 | Q-Former桥接 | 高效多模态 |
| LLaVA | 2023 | 视觉指令微调 | 开源多模态标杆 |
| GPT-4V | 2023 | 商业多模态 | 展示多模态潜力 |
| Gemini | 2024 | 原生多模态 | 统一架构趋势 |
参考文献
- Radford et al., "Learning Transferable Visual Models From Natural Language Supervision," ICML 2021
- Li et al., "BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models," ICML 2023
- Liu et al., "Visual Instruction Tuning," NeurIPS 2023
- Radford et al., "Robust Speech Recognition via Large-Scale Weak Supervision," ICML 2023