表示学习

📁 1_Representation/

这一章是 foundation 的地基。

以下内容也涉及一下：

📁 8_Reasoning/

表示学习的目标是：

学一个好的“特征表示空间”，让语义结构在这个空间里变得简单。

表示学习是Foundation Model的基础。

Foundation model 的核心特征：

不管是：

它们都有一个共同点：

先学一个“通用表示空间”

因为 foundation model 的目标不是解决一个任务。

它要做到：

而要支持这些能力，必须先满足一个条件：

语义在内部空间中被组织成稳定的结构。

也就是说：

foundation model 的能力来自它学到的“语义几何”。

如果内部表示是混乱的，

再强的解码器也没用。

表示学习（目标）
    ├── 监督学习
    ├── 无监督学习
    └── 自监督学习（现代主流）

历史发展顺序：

特征工程时代（1990s - 2012），SIFT, HOG, LBP；人设计特征 → 再用 SVM / 分类器；特征靠人设计，泛化能力弱
表示学习兴起（2006-2014），Autoencoder, RBM, Deep Belief Network；不需要手工特征，让模型自动学表示；2006年起开始出现representation learning的说法。2012年AlexNet成功，CNN自动学特征成为主流。在这个阶段，表示学习=监督深度学习
无监督表示学习（2014-2018），此时人们发现标注数据太贵，于是开始尝试autoencoder, GAN, predict context, word2vec等。这个阶段主要用在NLP领域，视觉领域效果有限。
自监督学习时代（2018-2021），代表方法：CPC, SimCLR, MoCo, BYOL, MAE；目标是在没有标签的情况下学到可迁移表示，应用领域包括图像预训练、视频、语音等。此时形成了“预训练比监督更重要”的共识。
跨模态表示学习（2021-现在），代表：CLIP，ALIGN，Flamingo，GPT-4V；学joint representation；应用领域包括零样本分类、多模态问答、图文生成，此时表示学习变成foundation model的核心。

评论 #