Skip to content

Foundation Model 概论

什么是 Foundation Model

2021 年,Stanford HAI 发表了里程碑式的报告 "On the Opportunities and Risks of Foundation Models",正式提出了 Foundation Model 这一概念。其定义如下:

A foundation model is any model that is trained on broad data (generally using self-supervision at scale) that can be adapted to a wide range of downstream tasks.

核心含义:一个在海量数据上预训练的大规模模型,能够通过微调、提示等方式迁移到各种下游任务。


核心特征

Foundation Model 具有以下关键特征:

特征 描述
大规模 (Scale) 参数量从亿级到万亿级,训练数据从 TB 到 PB 级别
通用性 (Generality) 不是为单一任务设计,而是支持分类、生成、推理、检索等多种能力
涌现能力 (Emergence) 模型在达到一定规模后,出现训练目标中未显式优化的能力
可迁移性 (Transfer) 预训练表示可以高效迁移到下游任务,减少对标注数据的需求
同质性 (Homogenization) 不同任务共享同一个基座模型,技术路线趋于统一

与传统的 task-specific model 相比,Foundation Model 代表了一种根本性的范式转换:

传统范式:  一个任务 → 一个模型 → 一份数据
Foundation:一个基座 → 多种任务 → 统一表示

历史演进

Foundation Model 的发展可以划分为以下几个阶段:

阶段一:分布式表示的萌芽 (2013-2017)

  • Word2Vec (Mikolov et al., 2013):第一次用神经网络学习词的分布式表示
  • GloVe (2014):基于共现矩阵的词向量方法
  • 核心思想:将离散的符号映射到连续向量空间
\[ \text{Word2Vec}: \quad P(w_t | w_{t-k}, \ldots, w_{t-1}) = \text{softmax}(W \cdot h) \]

阶段二:上下文表示的突破 (2018)

  • ELMo (Peters et al., 2018):用双向 LSTM 生成上下文相关的词表示
  • 关键创新:同一个词在不同上下文中获得不同的向量表示
  • 局限:基于 LSTM,难以捕捉长距离依赖

阶段三:预训练 + 微调范式 (2018-2019)

  • GPT-1 (Radford et al., 2018):首次将 Transformer decoder 用于语言模型预训练
  • BERT (Devlin et al., 2018):Masked Language Model + Next Sentence Prediction
  • 建立了 "pretrain + finetune" 的标准流程

阶段四:大规模语言模型 (2020-2022)

  • GPT-3 (Brown et al., 2020):175B 参数,展示了 in-context learning 能力
  • PaLM (Google, 2022):540B 参数,首次系统性地研究涌现能力
  • Chinchilla (Hoffmann et al., 2022):提出计算最优的 Scaling Law

阶段五:对齐与指令跟随 (2022-2023)

  • InstructGPT (Ouyang et al., 2022):RLHF 使模型更好地遵循人类指令
  • ChatGPT (OpenAI, 2022):对话式 AI 的里程碑,推动大模型走向应用

阶段六:多模态与通用智能 (2023-至今)

  • GPT-4 (OpenAI, 2023):多模态输入,推理能力大幅提升
  • GPT-4o (OpenAI, 2024):原生多模态(文本、图像、音频)
  • Gemini (Google, 2024):原生多模态 Foundation Model
演进路线图:

Word2Vec → ELMo → GPT-1/BERT → GPT-3 → InstructGPT → ChatGPT → GPT-4 → GPT-4o/Gemini
  词向量     上下文    预训练       规模化     对齐          对话       多模态     全模态

范式转换

深度学习的发展经历了五次重要的范式转换:

1. 特征工程时代 (Feature Engineering)

手工设计特征(如 SIFT、HOG),再接 SVM 等浅层分类器。

2. 表示学习时代 (Representation Learning)

深度网络自动学习特征,例如 CNN 在 ImageNet 上的突破。

3. 预训练 + 微调 (Pretrain + Finetune)

在大规模无标注数据上预训练,再在少量标注数据上微调。

\[ \theta^* = \arg\min_\theta \mathcal{L}_{\text{downstream}}(f_\theta(x), y) \quad \text{其中 } \theta_0 \text{ 来自预训练} \]

4. 预训练 + 提示 (Pretrain + Prompt)

不再微调模型参数,而是通过设计提示词 (prompt) 来激发模型已有的能力。

5. In-context Learning

模型通过上下文中的少量示例直接完成任务,无需任何参数更新。

范式演进:

特征工程 → 表示学习 → Pretrain+Finetune → Pretrain+Prompt → In-context Learning
 (人工)      (自动)      (迁移学习)          (不动参数)         (零参数更新)

核心趋势:越来越少的人工干预,越来越强的通用性。


涌现能力 (Emergent Abilities)

涌现能力是指模型在规模增大到某个临界点后,突然出现的、在小模型上不存在的能力。

定义

Wei et al. (2022) 给出的形式化描述:

An ability is emergent if it is not present in smaller models but is present in larger models.

关键特征:涌现不是渐进式提升,而是"阶跃"式出现。

涌现能力的典型例子

能力 描述 出现的大致规模
Few-shot Learning 通过几个示例完成新任务 ~10B 参数
Chain-of-Thought (CoT) 分步推理,解决多步数学/逻辑问题 ~100B 参数
Instruction Following 理解并执行自然语言指令 ~10B+ 参数
Code Generation 根据自然语言描述生成代码 ~100B 参数

Chain-of-Thought 示例

标准提示:

Q: Roger has 5 tennis balls. He buys 2 more. How many does he have?
A: 7

CoT 提示:

Q: Roger has 5 tennis balls. He buys 2 more. How many does he have?
A: Roger started with 5 balls. He bought 2 more. 5 + 2 = 7. The answer is 7.

通过引导模型展示中间推理步骤,显著提升了复杂问题的准确率。

关于涌现的争论

Schaeffer et al. (2023) 提出涌现可能是评估指标选择的产物(如使用非线性指标),而非模型本身的性质变化。这一争论仍在继续。


局限性与挑战

尽管 Foundation Model 能力强大,但仍面临诸多问题:

1. 幻觉 (Hallucination)

模型生成看似合理但实际错误的内容。这是当前大模型最严重的问题之一。

2. 偏见 (Bias)

训练数据中的社会偏见会被模型学习和放大,导致在性别、种族等维度上的不公平输出。

3. 计算成本 (Cost)

  • GPT-4 的训练成本估计超过 $1 亿美元
  • 推理阶段的算力消耗也十分巨大
  • 高成本限制了研究的民主化

4. 可解释性 (Interpretability)

Foundation Model 本质上是黑盒模型,难以理解其内部决策过程。

5. 安全与对齐 (Safety & Alignment)

如何确保模型行为符合人类价值观和意图,是一个核心的开放问题。详见 安全与对齐 章节。

6. 数据版权与隐私

大规模训练数据可能包含受版权保护的内容或个人隐私信息,引发法律和伦理问题。


总结

Foundation Model 代表了 AI 发展的重大范式转换。其核心理念是:

在海量数据上预训练一个通用模型,然后通过多种方式适配到具体任务。

这一范式的成功依赖于三个支柱:

  1. 数据:Web-scale 的高质量训练数据
  2. 算力:大规模分布式训练基础设施
  3. 算法:Transformer 架构 + 自监督学习目标

Foundation Model 的研究仍在快速发展,从语言扩展到视觉、多模态、具身智能等领域,最终目标是构建真正通用的人工智能系统。


评论 #