跳转至

多模态学习

概述

多模态学习旨在联合理解和生成来自不同模态(文本、图像、音频、视频等)的信息。从CLIP的对比预训练到LLaVA的视觉指令微调,多模态模型正在走向统一的智能体架构。

graph TD
    A[多模态学习] --> B[对比预训练]
    A --> C[生成式预训练]
    A --> D[多模态大模型]
    A --> E[音频模型]

    B --> B1[CLIP]
    B --> B2[SigLIP]
    B --> B3[ALIGN]

    C --> C1[BLIP]
    C --> C2[BLIP-2]
    C --> C3[CoCa]

    D --> D1[LLaVA]
    D --> D2[GPT-4V]
    D --> D3[Gemini]

    E --> E1[Whisper]
    E --> E2[AudioLM]

    subgraph 融合策略
    F1[Early Fusion]
    F2[Late Fusion]
    F3[Cross-Attention]
    end

1. CLIP:对比语言-图像预训练

1.1 核心思想

CLIP(Contrastive Language-Image Pre-training, Radford et al., 2021)通过大规模图文对比学习,将图像和文本映射到共享的嵌入空间。

训练目标

对于一个batch中的 \(N\) 个图文对 \((I_i, T_i)\)

\[ \mathcal{L}_{\text{CLIP}} = -\frac{1}{2N}\sum_{i=1}^{N}\left[\log\frac{\exp(s_{i,i}/\tau)}{\sum_{j=1}^{N}\exp(s_{i,j}/\tau)} + \log\frac{\exp(s_{i,i}/\tau)}{\sum_{j=1}^{N}\exp(s_{j,i}/\tau)}\right] \]

其中 \(s_{i,j} = f_I(I_i)^\top f_T(T_j)\) 是图像和文本嵌入的相似度。

1.2 架构

  • 图像编码器:ViT(如ViT-L/14)或ResNet
  • 文本编码器:Transformer
  • 投影层:将两个编码器的输出映射到共享空间

1.3 零样本分类

无需微调即可用于图像分类:

  1. 构造文本提示:"a photo of a {class}"
  2. 计算图像与所有类别文本的相似度
  3. 选择最高相似度的类别

1.4 CLIP的变体

模型 改进
OpenCLIP 开源实现,更大规模训练
SigLIP Sigmoid替代Softmax,无需大batch
ALIGN 更大规模噪声数据
EVA-CLIP 更强的视觉编码器
MetaCLIP 数据策展策略优化

2. BLIP系列

2.1 BLIP

BLIP(Bootstrapping Language-Image Pre-training):统一理解和生成。

三个预训练任务

  1. ITC(Image-Text Contrastive):对比学习
  2. ITM(Image-Text Matching):二分类匹配
  3. LM(Language Modeling):图像条件的文本生成

CapFilt:用自训练的方式过滤噪声数据 + 生成高质量描述。

2.2 BLIP-2

BLIP-2(Li et al., 2023):用轻量的Q-Former桥接冻结的视觉和语言模型。

架构

\[ \text{Image} \xrightarrow{\text{Frozen ViT}} \text{Features} \xrightarrow{\text{Q-Former}} \text{Visual Tokens} \xrightarrow{\text{Frozen LLM}} \text{Output} \]

Q-Former

  • 一组可学习的query token(32个)
  • 通过交叉注意力从视觉特征中提取信息
  • 两阶段训练:
    1. 视觉-语言表示学习(ITC + ITM + LM)
    2. 视觉到语言生成学习(连接LLM)

优势:仅训练Q-Former(188M参数),冻结视觉和语言大模型。


3. LLaVA:视觉指令微调

3.1 LLaVA

LLaVA(Visual Instruction Tuning, Liu et al., 2023):简洁而有效的多模态大模型。

架构

\[ \text{Image} \xrightarrow{\text{CLIP ViT}} \text{Visual Features} \xrightarrow{W} \text{Visual Tokens} \xrightarrow{\text{LLM}} \text{Response} \]

其中 \(W\) 是一个简单的线性投影层。

两阶段训练

  1. 预训练:冻结ViT和LLM,只训练投影层 \(W\)(558K图文对)
  2. 指令微调:解冻LLM,在视觉指令数据上微调(665K样本)

3.2 LLaVA-1.5

改进

  • 投影层从线性改为2层MLP
  • 更高分辨率输入(336×336)
  • 更多的指令微调数据
  • 使用Vicuna 13B作为LLM

3.3 LLaVA-NeXT / LLaVA-OneVision

  • 动态高分辨率:将图像切成多个tile
  • 支持视频理解
  • 更强的LLM基座

4. 多模态融合策略

4.1 三种融合方式

graph TD
    subgraph "Early Fusion 早期融合"
    A1[Image Tokens] --> M1[Combined Input]
    A2[Text Tokens] --> M1
    M1 --> T1[Unified Transformer]
    end

    subgraph "Late Fusion 晚期融合"
    B1[Image] --> E1[Image Encoder]
    B2[Text] --> E2[Text Encoder]
    E1 --> F1[Fusion Layer]
    E2 --> F1
    end

    subgraph "Cross-Attention 交叉注意力"
    C1[Image Features] --> CA[Cross-Attention]
    C2[Text Features] --> CA
    CA --> O1[Output]
    end

4.2 详细对比

融合方式 描述 优点 缺点 代表模型
早期融合 将所有模态token拼接后统一处理 充分交互 计算量大 Fuyu, Gemini
晚期融合 各模态独立编码,最后融合 高效、模块化 交互不够深 CLIP
交叉注意力 一个模态查询另一个模态 平衡效率与交互 需要设计注意力模式 Flamingo, BLIP-2
投影式 线性/MLP投影到LLM空间 简单高效 信息压缩 LLaVA

4.3 视觉Token的处理

方法 视觉Token数 信息保留 计算开销
全部保留 576+(ViT-L/14@336) 最完整 最大
Q-Former 32-64 中等
Perceiver Resampler 64-256 中等 中等
下采样/池化 可调 可调

5. 音频多模态:Whisper

5.1 Whisper

Whisper(Radford et al., 2023):大规模弱监督语音识别。

关键设计

  • 680,000小时多语言音频数据
  • 编码器-解码器Transformer架构
  • 多任务训练:转录、翻译、语言检测、时间戳

输入处理

  1. 音频 → 梅尔频谱图(80通道,30秒窗口)
  2. 两层1D卷积
  3. 正弦位置编码
  4. Transformer编码器

5.2 音频-语言模型

模型 能力
Whisper 语音识别、翻译
AudioLM 音频生成
MusicLM 音乐生成
Qwen-Audio 音频理解+对话
SALMONN 语音+音频+音乐理解

6. 统一多模态架构

6.1 当前主流架构

模型 视觉编码器 连接器 LLM 特点
GPT-4V/4o 未公开 未公开 GPT-4 最强商业模型
Gemini 原生多模态 无需 - 端到端多模态
Claude 3 未公开 未公开 Claude 强视觉理解
LLaVA-1.5 CLIP ViT-L MLP Vicuna 开源标杆
InternVL InternViT QLLaMA InternLM 强开源模型
Qwen-VL ViT + 压缩 交叉注意力 Qwen 中文优势

6.2 发展趋势

  1. 原生多模态:不再是"视觉编码器+LLM"拼接,而是统一架构
  2. 任意到任意:输入/输出支持任意模态组合
  3. 更多模态:3D、触觉、机器人动作
  4. 实时交互:流式多模态对话(GPT-4o)

7. 总结

方法 时期 核心创新 影响
CLIP 2021 对比图文预训练 开启零样本视觉
BLIP-2 2023 Q-Former桥接 高效多模态
LLaVA 2023 视觉指令微调 开源多模态标杆
GPT-4V 2023 商业多模态 展示多模态潜力
Gemini 2024 原生多模态 统一架构趋势

参考文献

  • Radford et al., "Learning Transferable Visual Models From Natural Language Supervision," ICML 2021
  • Li et al., "BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models," ICML 2023
  • Liu et al., "Visual Instruction Tuning," NeurIPS 2023
  • Radford et al., "Robust Speech Recognition via Large-Scale Weak Supervision," ICML 2023

评论 #