LLM 作为 Foundation Model
GPT 系列演进
GPT 系列是 Foundation Model 最具代表性的发展脉络,展示了 "规模化 + 对齐" 的完整路径。
GPT-1 (2018)
- 参数量:117M
- 核心思想:用 Transformer Decoder 做自回归语言模型预训练,再微调到下游任务
- 训练数据:BookCorpus(约 5GB 文本)
- 意义:首次验证了 "pretrain + finetune" 在 NLP 中的有效性
GPT-2 (2019)
- 参数量:1.5B(10 倍于 GPT-1)
- 核心思想:Language model 可以作为 unsupervised multitask learner
- 训练数据:WebText(约 40GB)
- 关键发现:模型在未经微调的情况下就能完成一些任务(zero-shot)
GPT-3 (2020)
- 参数量:175B
- 核心突破:In-context Learning -- 不需要微调,只需要在 prompt 中给几个示例
- 训练数据:约 570GB 过滤后的文本
- 意义:规模化带来了质变,涌现出 few-shot 能力
InstructGPT (2022)
- 基于 GPT-3 + RLHF
- 核心思想:通过人类反馈对齐模型行为
- 显著改善了模型的有用性 (helpfulness) 和安全性 (safety)
- 1.3B 的 InstructGPT 在人类评估中优于 175B 的 GPT-3
ChatGPT (2022)
- 基于 InstructGPT 的方法训练的对话模型
- 面向多轮对话场景优化
- 推动了大模型的大规模商业化应用
GPT-4 (2023)
- 多模态输入(文本 + 图像)
- 推理能力大幅提升,在多种专业考试中达到人类水平
- 具体架构未公开,推测为 MoE 架构
GPT-4o (2024)
- 原生多模态:文本、图像、音频的统一处理
- 实时语音对话能力
- 更快的推理速度
GPT 系列演进:
GPT-1 GPT-2 GPT-3 InstructGPT ChatGPT GPT-4 GPT-4o
117M 1.5B 175B 1.3B/175B - MoE? -
Finetune Zero-shot ICL RLHF 对话 多模态 全模态
2018 2019 2020 2022 2022 2023 2024
架构:Decoder-only Transformer
现代 LLM 几乎统一采用 Decoder-only Transformer 架构。
基本结构
Input Tokens → Embedding → [Decoder Block x N] → LM Head → Next Token
Decoder Block:
├── Causal Self-Attention (带因果掩码)
├── LayerNorm (Pre-Norm)
└── Feed-Forward Network (SwiGLU)
Next-Token Prediction
LLM 的训练目标就是预测下一个 token:
尽管目标极其简单,但当模型足够大、数据足够多时,模型会隐式地学习到语法、语义、推理乃至世界知识。
现代 LLM 的架构改进
相比原始 Transformer,现代 LLM 引入了多项改进:
| 改进 | 原始 Transformer | 现代 LLM |
|---|---|---|
| Normalization | Post-Norm | Pre-Norm (RMSNorm) |
| 激活函数 | ReLU | SwiGLU |
| 位置编码 | Sinusoidal | RoPE (旋转位置编码) |
| 注意力 | Multi-Head | GQA (Grouped Query Attention) |
RoPE 的核心思想是将位置信息编码为旋转矩阵:
这使得注意力得分只依赖于相对位置 \(m - n\)。
GQA 将 key 和 value head 共享,减少 KV cache 的内存占用,提高推理效率。
Scaling Law
Scaling Law 描述了模型性能与规模的关系。详细内容请参考 Scaling 与架构。
Kaplan Scaling Law (OpenAI, 2020)
模型的 test loss 与参数量 \(N\)、数据量 \(D\)、计算量 \(C\) 之间存在幂律关系:
结论:在固定预算下,应优先增大模型参数量。
Chinchilla Scaling Law (DeepMind, 2022)
修正了 Kaplan 的结论,提出参数量和数据量应同比例增长:
实际建议:每个参数约需 20 个 training token。例如 70B 模型需要约 1.4T token。
涌现能力
In-context Learning (ICL)
ICL 是指模型通过上下文中的示例直接完成任务,无需参数更新:
Prompt:
Translate English to French:
sea otter => loutre de mer
plush giraffe => girafe en peluche
cheese => ?
Output: fromage
ICL 的机制仍在研究中。一种理论认为 Transformer 在前向传播中隐式地执行了梯度下降。
Chain-of-Thought (CoT)
CoT 引导模型进行分步推理,显著提升了数学和逻辑任务的表现:
其中 \(r_1, \ldots, r_k\) 是中间推理步骤。
Instruction Following
经过指令微调后,模型能够理解并执行自然语言指令,而不仅仅是补全文本。
RLHF Pipeline
RLHF (Reinforcement Learning from Human Feedback) 是将 LLM 与人类偏好对齐的核心方法。
三阶段流程
阶段一:SFT (Supervised Fine-Tuning)
收集高质量的 (指令, 回答) 数据对
在预训练 LLM 上做监督微调
↓
阶段二:Reward Model (RM) 训练
人类标注者对模型的多个回答进行排序
训练一个奖励模型学习人类偏好
RM Loss: L = -log(sigma(r(y_w) - r(y_l)))
↓
阶段三:PPO 优化
用 RM 的得分作为奖励信号
通过 PPO 算法优化 LLM 的策略
加入 KL 惩罚防止偏离 SFT 模型太远
PPO 的优化目标:
其中 \(r_\phi\) 是 Reward Model,\(\pi_{\text{ref}}\) 是 SFT 模型,\(\beta\) 控制 KL 惩罚强度。
更多关于对齐方法的讨论见 安全与对齐。
开源 LLM 生态
LLaMA 系列 (Meta)
- LLaMA (2023):7B/13B/33B/65B,在公开数据上训练,证明了开源 LLM 的可行性
- LLaMA 2 (2023):增加训练数据到 2T token,加入 RLHF 对齐
- LLaMA 3 (2024):8B/70B/405B,训练数据 15T+ token,性能接近 GPT-4
Mistral 系列 (Mistral AI)
- Mistral 7B (2023):引入 Sliding Window Attention + GQA,7B 级别性能最强
- Mixtral 8x7B (2024):MoE 架构,8 个专家取 2 个,激活参数 12.9B
Qwen 系列 (阿里)
- Qwen (2023):中英双语优化
- Qwen2 (2024):多尺寸(0.5B-72B),支持 128K 上下文
- Qwen2.5 (2024):进一步提升代码和数学能力
DeepSeek 系列 (深度求索)
- DeepSeek-V2 (2024):MLA (Multi-head Latent Attention) + DeepSeekMoE
- DeepSeek-V3 (2025):671B 总参数,37B 激活参数,FP8 训练
- DeepSeek-R1 (2025):强化学习驱动的推理模型
主要 LLM 对比
| 模型 | 参数量 | 架构 | 训练数据 | 上下文长度 | 开源 |
|---|---|---|---|---|---|
| GPT-4 | 未公开 (推测 MoE) | Decoder-only | 未公开 | 128K | 否 |
| LLaMA 3 405B | 405B | Dense Decoder | 15T+ token | 128K | 是 |
| Mistral Large | 未公开 | 推测 MoE | 未公开 | 128K | 否 |
| Mixtral 8x7B | 46.7B (12.9B active) | MoE | 未公开 | 32K | 是 |
| Qwen2.5 72B | 72B | Dense Decoder | 18T+ token | 128K | 是 |
| DeepSeek-V3 | 671B (37B active) | MoE + MLA | 14.8T token | 128K | 是 |
总结
LLM 作为 Foundation Model 的成功来自几个关键因素:
- 简单而强大的目标:Next-token prediction 足以学到丰富的世界知识
- 规模化效应:Scaling Law 保证了性能随规模可预测地提升
- 涌现能力:ICL、CoT 等能力在大规模下自然出现
- 对齐技术:RLHF 使模型行为符合人类期望
当前 LLM 的发展趋势是:更高效的架构(MoE、MLA)、更长的上下文、更强的推理能力、以及多模态统一。