Skip to content

表示学习

📁 1_Representation/

  • 表示学习回顾
  • 表示空间几何结构
  • 线性探测(Linear Probing)
  • 对比学习(InfoNCE)
  • 掩码建模(MAE)
  • Joint Embedding vs Generative Modeling

这一章是 foundation 的地基。


以下内容也涉及一下:

📁 8_Reasoning/

  • 表示 vs 推理
  • Emergent Abilities
  • 世界模型假说
  • Representation 是否等价于知识?
  • 统计学习 vs 结构推理

表示学习的目标是:

学一个好的“特征表示空间”,让语义结构在这个空间里变得简单。

表示学习是Foundation Model的基础。

Foundation model 的核心特征:

  1. 大规模预训练
  2. 通用能力
  3. 可迁移到多任务
  4. 下游微调或 zero-shot

不管是:

  • BERT
  • GPT
  • CLIP
  • ViT
  • 多模态 LLM

它们都有一个共同点:

先学一个“通用表示空间”

因为 foundation model 的目标不是解决一个任务。

它要做到:

  • 可以分类
  • 可以生成
  • 可以检索
  • 可以推理
  • 可以迁移

而要支持这些能力,必须先满足一个条件:

语义在内部空间中被组织成稳定的结构。

也就是说:

foundation model 的能力来自它学到的“语义几何”。

如果内部表示是混乱的,

再强的解码器也没用。

表示学习(目标)
    ├── 监督学习
    ├── 无监督学习
    └── 自监督学习(现代主流)

历史发展顺序:

  1. 特征工程时代(1990s - 2012),SIFT, HOG, LBP;人设计特征 → 再用 SVM / 分类器;特征靠人设计,泛化能力弱
  2. 表示学习兴起(2006-2014),Autoencoder, RBM, Deep Belief Network;不需要手工特征,让模型自动学表示;2006年起开始出现representation learning的说法。2012年AlexNet成功,CNN自动学特征成为主流。在这个阶段,表示学习=监督深度学习
  3. 无监督表示学习(2014-2018),此时人们发现标注数据太贵,于是开始尝试autoencoder, GAN, predict context, word2vec等。这个阶段主要用在NLP领域,视觉领域效果有限。
  4. 自监督学习时代(2018-2021),代表方法:CPC, SimCLR, MoCo, BYOL, MAE;目标是在没有标签的情况下学到可迁移表示,应用领域包括图像预训练、视频、语音等。此时形成了“预训练比监督更重要”的共识。
  5. 跨模态表示学习(2021-现在),代表:CLIP,ALIGN,Flamingo,GPT-4V;学joint representation;应用领域包括零样本分类、多模态问答、图文生成,此时表示学习变成foundation model的核心。

评论 #