Foundation Model 概论
什么是 Foundation Model
2021 年,Stanford HAI 发表了里程碑式的报告 "On the Opportunities and Risks of Foundation Models",正式提出了 Foundation Model 这一概念。其定义如下:
A foundation model is any model that is trained on broad data (generally using self-supervision at scale) that can be adapted to a wide range of downstream tasks.
核心含义:一个在海量数据上预训练的大规模模型,能够通过微调、提示等方式迁移到各种下游任务。
核心特征
Foundation Model 具有以下关键特征:
| 特征 | 描述 |
|---|---|
| 大规模 (Scale) | 参数量从亿级到万亿级,训练数据从 TB 到 PB 级别 |
| 通用性 (Generality) | 不是为单一任务设计,而是支持分类、生成、推理、检索等多种能力 |
| 涌现能力 (Emergence) | 模型在达到一定规模后,出现训练目标中未显式优化的能力 |
| 可迁移性 (Transfer) | 预训练表示可以高效迁移到下游任务,减少对标注数据的需求 |
| 同质性 (Homogenization) | 不同任务共享同一个基座模型,技术路线趋于统一 |
与传统的 task-specific model 相比,Foundation Model 代表了一种根本性的范式转换:
传统范式: 一个任务 → 一个模型 → 一份数据
Foundation:一个基座 → 多种任务 → 统一表示
历史演进
Foundation Model 的发展可以划分为以下几个阶段:
阶段一:分布式表示的萌芽 (2013-2017)
- Word2Vec (Mikolov et al., 2013):第一次用神经网络学习词的分布式表示
- GloVe (2014):基于共现矩阵的词向量方法
- 核心思想:将离散的符号映射到连续向量空间
阶段二:上下文表示的突破 (2018)
- ELMo (Peters et al., 2018):用双向 LSTM 生成上下文相关的词表示
- 关键创新:同一个词在不同上下文中获得不同的向量表示
- 局限:基于 LSTM,难以捕捉长距离依赖
阶段三:预训练 + 微调范式 (2018-2019)
- GPT-1 (Radford et al., 2018):首次将 Transformer decoder 用于语言模型预训练
- BERT (Devlin et al., 2018):Masked Language Model + Next Sentence Prediction
- 建立了 "pretrain + finetune" 的标准流程
阶段四:大规模语言模型 (2020-2022)
- GPT-3 (Brown et al., 2020):175B 参数,展示了 in-context learning 能力
- PaLM (Google, 2022):540B 参数,首次系统性地研究涌现能力
- Chinchilla (Hoffmann et al., 2022):提出计算最优的 Scaling Law
阶段五:对齐与指令跟随 (2022-2023)
- InstructGPT (Ouyang et al., 2022):RLHF 使模型更好地遵循人类指令
- ChatGPT (OpenAI, 2022):对话式 AI 的里程碑,推动大模型走向应用
阶段六:多模态与通用智能 (2023-至今)
- GPT-4 (OpenAI, 2023):多模态输入,推理能力大幅提升
- GPT-4o (OpenAI, 2024):原生多模态(文本、图像、音频)
- Gemini (Google, 2024):原生多模态 Foundation Model
演进路线图:
Word2Vec → ELMo → GPT-1/BERT → GPT-3 → InstructGPT → ChatGPT → GPT-4 → GPT-4o/Gemini
词向量 上下文 预训练 规模化 对齐 对话 多模态 全模态
范式转换
深度学习的发展经历了五次重要的范式转换:
1. 特征工程时代 (Feature Engineering)
手工设计特征(如 SIFT、HOG),再接 SVM 等浅层分类器。
2. 表示学习时代 (Representation Learning)
深度网络自动学习特征,例如 CNN 在 ImageNet 上的突破。
3. 预训练 + 微调 (Pretrain + Finetune)
在大规模无标注数据上预训练,再在少量标注数据上微调。
4. 预训练 + 提示 (Pretrain + Prompt)
不再微调模型参数,而是通过设计提示词 (prompt) 来激发模型已有的能力。
5. In-context Learning
模型通过上下文中的少量示例直接完成任务,无需任何参数更新。
范式演进:
特征工程 → 表示学习 → Pretrain+Finetune → Pretrain+Prompt → In-context Learning
(人工) (自动) (迁移学习) (不动参数) (零参数更新)
核心趋势:越来越少的人工干预,越来越强的通用性。
涌现能力 (Emergent Abilities)
涌现能力是指模型在规模增大到某个临界点后,突然出现的、在小模型上不存在的能力。
定义
Wei et al. (2022) 给出的形式化描述:
An ability is emergent if it is not present in smaller models but is present in larger models.
关键特征:涌现不是渐进式提升,而是"阶跃"式出现。
涌现能力的典型例子
| 能力 | 描述 | 出现的大致规模 |
|---|---|---|
| Few-shot Learning | 通过几个示例完成新任务 | ~10B 参数 |
| Chain-of-Thought (CoT) | 分步推理,解决多步数学/逻辑问题 | ~100B 参数 |
| Instruction Following | 理解并执行自然语言指令 | ~10B+ 参数 |
| Code Generation | 根据自然语言描述生成代码 | ~100B 参数 |
Chain-of-Thought 示例
标准提示:
Q: Roger has 5 tennis balls. He buys 2 more. How many does he have?
A: 7
CoT 提示:
Q: Roger has 5 tennis balls. He buys 2 more. How many does he have?
A: Roger started with 5 balls. He bought 2 more. 5 + 2 = 7. The answer is 7.
通过引导模型展示中间推理步骤,显著提升了复杂问题的准确率。
关于涌现的争论
Schaeffer et al. (2023) 提出涌现可能是评估指标选择的产物(如使用非线性指标),而非模型本身的性质变化。这一争论仍在继续。
局限性与挑战
尽管 Foundation Model 能力强大,但仍面临诸多问题:
1. 幻觉 (Hallucination)
模型生成看似合理但实际错误的内容。这是当前大模型最严重的问题之一。
2. 偏见 (Bias)
训练数据中的社会偏见会被模型学习和放大,导致在性别、种族等维度上的不公平输出。
3. 计算成本 (Cost)
- GPT-4 的训练成本估计超过 $1 亿美元
- 推理阶段的算力消耗也十分巨大
- 高成本限制了研究的民主化
4. 可解释性 (Interpretability)
Foundation Model 本质上是黑盒模型,难以理解其内部决策过程。
5. 安全与对齐 (Safety & Alignment)
如何确保模型行为符合人类价值观和意图,是一个核心的开放问题。详见 安全与对齐 章节。
6. 数据版权与隐私
大规模训练数据可能包含受版权保护的内容或个人隐私信息,引发法律和伦理问题。
总结
Foundation Model 代表了 AI 发展的重大范式转换。其核心理念是:
在海量数据上预训练一个通用模型,然后通过多种方式适配到具体任务。
这一范式的成功依赖于三个支柱:
- 数据:Web-scale 的高质量训练数据
- 算力:大规模分布式训练基础设施
- 算法:Transformer 架构 + 自监督学习目标
Foundation Model 的研究仍在快速发展,从语言扩展到视觉、多模态、具身智能等领域,最终目标是构建真正通用的人工智能系统。