表示学习
📁 1_Representation/
- 表示学习回顾
- 表示空间几何结构
- 线性探测(Linear Probing)
- 对比学习(InfoNCE)
- 掩码建模(MAE)
- Joint Embedding vs Generative Modeling
这一章是 foundation 的地基。
以下内容也涉及一下:
📁 8_Reasoning/
- 表示 vs 推理
- Emergent Abilities
- 世界模型假说
- Representation 是否等价于知识?
- 统计学习 vs 结构推理
表示学习的目标是:
学一个好的“特征表示空间”,让语义结构在这个空间里变得简单。
表示学习是Foundation Model的基础。
Foundation model 的核心特征:
- 大规模预训练
- 通用能力
- 可迁移到多任务
- 下游微调或 zero-shot
不管是:
- BERT
- GPT
- CLIP
- ViT
- 多模态 LLM
它们都有一个共同点:
先学一个“通用表示空间”
因为 foundation model 的目标不是解决一个任务。
它要做到:
- 可以分类
- 可以生成
- 可以检索
- 可以推理
- 可以迁移
而要支持这些能力,必须先满足一个条件:
语义在内部空间中被组织成稳定的结构。
也就是说:
foundation model 的能力来自它学到的“语义几何”。
如果内部表示是混乱的,
再强的解码器也没用。
表示学习(目标)
├── 监督学习
├── 无监督学习
└── 自监督学习(现代主流)
历史发展顺序:
- 特征工程时代(1990s - 2012),SIFT, HOG, LBP;人设计特征 → 再用 SVM / 分类器;特征靠人设计,泛化能力弱
- 表示学习兴起(2006-2014),Autoencoder, RBM, Deep Belief Network;不需要手工特征,让模型自动学表示;2006年起开始出现representation learning的说法。2012年AlexNet成功,CNN自动学特征成为主流。在这个阶段,表示学习=监督深度学习
- 无监督表示学习(2014-2018),此时人们发现标注数据太贵,于是开始尝试autoencoder, GAN, predict context, word2vec等。这个阶段主要用在NLP领域,视觉领域效果有限。
- 自监督学习时代(2018-2021),代表方法:CPC, SimCLR, MoCo, BYOL, MAE;目标是在没有标签的情况下学到可迁移表示,应用领域包括图像预训练、视频、语音等。此时形成了“预训练比监督更重要”的共识。
- 跨模态表示学习(2021-现在),代表:CLIP,ALIGN,Flamingo,GPT-4V;学joint representation;应用领域包括零样本分类、多模态问答、图文生成,此时表示学习变成foundation model的核心。