多模态学习

概述

多模态学习旨在联合理解和生成来自不同模态（文本、图像、音频、视频等）的信息。从CLIP的对比预训练到LLaVA的视觉指令微调，多模态模型正在走向统一的智能体架构。

graph TD
    A[多模态学习] --> B[对比预训练]
    A --> C[生成式预训练]
    A --> D[多模态大模型]
    A --> E[音频模型]

    B --> B1[CLIP]
    B --> B2[SigLIP]
    B --> B3[ALIGN]

    C --> C1[BLIP]
    C --> C2[BLIP-2]
    C --> C3[CoCa]

    D --> D1[LLaVA]
    D --> D2[GPT-4V]
    D --> D3[Gemini]

    E --> E1[Whisper]
    E --> E2[AudioLM]

    subgraph 融合策略
    F1[Early Fusion]
    F2[Late Fusion]
    F3[Cross-Attention]
    end

1. CLIP：对比语言-图像预训练

1.1 核心思想

CLIP（Contrastive Language-Image Pre-training, Radford et al., 2021）通过大规模图文对比学习，将图像和文本映射到共享的嵌入空间。

训练目标：

对于一个batch中的 \(N\) 个图文对 \((I_i, T_i)\)：

\[ \mathcal{L}_{\text{CLIP}} = -\frac{1}{2N}\sum_{i=1}^{N}\left[\log\frac{\exp(s_{i,i}/\tau)}{\sum_{j=1}^{N}\exp(s_{i,j}/\tau)} + \log\frac{\exp(s_{i,i}/\tau)}{\sum_{j=1}^{N}\exp(s_{j,i}/\tau)}\right] \]

其中 \(s_{i,j} = f_I(I_i)^\top f_T(T_j)\) 是图像和文本嵌入的相似度。

1.2 架构

图像编码器：ViT（如ViT-L/14）或ResNet
文本编码器：Transformer
投影层：将两个编码器的输出映射到共享空间

1.3 零样本分类

无需微调即可用于图像分类：

构造文本提示："a photo of a {class}"
计算图像与所有类别文本的相似度
选择最高相似度的类别

1.4 CLIP的变体

模型	改进
OpenCLIP	开源实现，更大规模训练
SigLIP	Sigmoid替代Softmax，无需大batch
ALIGN	更大规模噪声数据
EVA-CLIP	更强的视觉编码器
MetaCLIP	数据策展策略优化

2. BLIP系列

2.1 BLIP

BLIP（Bootstrapping Language-Image Pre-training）：统一理解和生成。

三个预训练任务：

ITC（Image-Text Contrastive）：对比学习
ITM（Image-Text Matching）：二分类匹配
LM（Language Modeling）：图像条件的文本生成

CapFilt：用自训练的方式过滤噪声数据 + 生成高质量描述。

2.2 BLIP-2

BLIP-2（Li et al., 2023）：用轻量的Q-Former桥接冻结的视觉和语言模型。

架构：

\[ \text{Image} \xrightarrow{\text{Frozen ViT}} \text{Features} \xrightarrow{\text{Q-Former}} \text{Visual Tokens} \xrightarrow{\text{Frozen LLM}} \text{Output} \]

Q-Former：

一组可学习的query token（32个）
通过交叉注意力从视觉特征中提取信息
两阶段训练：
1. 视觉-语言表示学习（ITC + ITM + LM）
2. 视觉到语言生成学习（连接LLM）

优势：仅训练Q-Former（188M参数），冻结视觉和语言大模型。

3. LLaVA：视觉指令微调

3.1 LLaVA

LLaVA（Visual Instruction Tuning, Liu et al., 2023）：简洁而有效的多模态大模型。

架构：

\[ \text{Image} \xrightarrow{\text{CLIP ViT}} \text{Visual Features} \xrightarrow{W} \text{Visual Tokens} \xrightarrow{\text{LLM}} \text{Response} \]

其中 \(W\) 是一个简单的线性投影层。

两阶段训练：

预训练：冻结ViT和LLM，只训练投影层 \(W\)（558K图文对）
指令微调：解冻LLM，在视觉指令数据上微调（665K样本）

3.2 LLaVA-1.5

改进：

投影层从线性改为2层MLP
更高分辨率输入（336×336）
更多的指令微调数据
使用Vicuna 13B作为LLM

3.3 LLaVA-NeXT / LLaVA-OneVision

动态高分辨率：将图像切成多个tile
支持视频理解
更强的LLM基座

4. 多模态融合策略

4.1 三种融合方式

graph TD
    subgraph "Early Fusion 早期融合"
    A1[Image Tokens] --> M1[Combined Input]
    A2[Text Tokens] --> M1
    M1 --> T1[Unified Transformer]
    end

    subgraph "Late Fusion 晚期融合"
    B1[Image] --> E1[Image Encoder]
    B2[Text] --> E2[Text Encoder]
    E1 --> F1[Fusion Layer]
    E2 --> F1
    end

    subgraph "Cross-Attention 交叉注意力"
    C1[Image Features] --> CA[Cross-Attention]
    C2[Text Features] --> CA
    CA --> O1[Output]
    end

4.2 详细对比

融合方式	描述	优点	缺点	代表模型
早期融合	将所有模态token拼接后统一处理	充分交互	计算量大	Fuyu, Gemini
晚期融合	各模态独立编码，最后融合	高效、模块化	交互不够深	CLIP
交叉注意力	一个模态查询另一个模态	平衡效率与交互	需要设计注意力模式	Flamingo, BLIP-2
投影式	线性/MLP投影到LLM空间	简单高效	信息压缩	LLaVA

4.3 视觉Token的处理

方法	视觉Token数	信息保留	计算开销
全部保留	576+（ViT-L/14@336）	最完整	最大
Q-Former	32-64	中等	小
Perceiver Resampler	64-256	中等	中等
下采样/池化	可调	可调	小

5. 音频多模态：Whisper

5.1 Whisper

Whisper（Radford et al., 2023）：大规模弱监督语音识别。

关键设计：

680,000小时多语言音频数据
编码器-解码器Transformer架构
多任务训练：转录、翻译、语言检测、时间戳

输入处理：

音频 → 梅尔频谱图（80通道，30秒窗口）
两层1D卷积
正弦位置编码
Transformer编码器

5.2 音频-语言模型

模型	能力
Whisper	语音识别、翻译
AudioLM	音频生成
MusicLM	音乐生成
Qwen-Audio	音频理解+对话
SALMONN	语音+音频+音乐理解

6. 统一多模态架构

6.1 当前主流架构

模型	视觉编码器	连接器	LLM	特点
GPT-4V/4o	未公开	未公开	GPT-4	最强商业模型
Gemini	原生多模态	无需	-	端到端多模态
Claude 3	未公开	未公开	Claude	强视觉理解
LLaVA-1.5	CLIP ViT-L	MLP	Vicuna	开源标杆
InternVL	InternViT	QLLaMA	InternLM	强开源模型
Qwen-VL	ViT + 压缩	交叉注意力	Qwen	中文优势

6.2 发展趋势

原生多模态：不再是"视觉编码器+LLM"拼接，而是统一架构
任意到任意：输入/输出支持任意模态组合
更多模态：3D、触觉、机器人动作
实时交互：流式多模态对话（GPT-4o）

7. 总结

方法	时期	核心创新	影响
CLIP	2021	对比图文预训练	开启零样本视觉
BLIP-2	2023	Q-Former桥接	高效多模态
LLaVA	2023	视觉指令微调	开源多模态标杆
GPT-4V	2023	商业多模态	展示多模态潜力
Gemini	2024	原生多模态	统一架构趋势

参考文献

Radford et al., "Learning Transferable Visual Models From Natural Language Supervision," ICML 2021
Li et al., "BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models," ICML 2023
Liu et al., "Visual Instruction Tuning," NeurIPS 2023
Radford et al., "Robust Speech Recognition via Large-Scale Weak Supervision," ICML 2023