Skip to content

LLM 作为 Foundation Model

GPT 系列演进

GPT 系列是 Foundation Model 最具代表性的发展脉络,展示了 "规模化 + 对齐" 的完整路径。

GPT-1 (2018)

  • 参数量:117M
  • 核心思想:用 Transformer Decoder 做自回归语言模型预训练,再微调到下游任务
  • 训练数据:BookCorpus(约 5GB 文本)
  • 意义:首次验证了 "pretrain + finetune" 在 NLP 中的有效性

GPT-2 (2019)

  • 参数量:1.5B(10 倍于 GPT-1)
  • 核心思想:Language model 可以作为 unsupervised multitask learner
  • 训练数据:WebText(约 40GB)
  • 关键发现:模型在未经微调的情况下就能完成一些任务(zero-shot)

GPT-3 (2020)

  • 参数量:175B
  • 核心突破:In-context Learning -- 不需要微调,只需要在 prompt 中给几个示例
  • 训练数据:约 570GB 过滤后的文本
  • 意义:规模化带来了质变,涌现出 few-shot 能力
\[ P(y | x_{\text{prompt}}) = P(y | [\text{examples}; x_{\text{query}}]; \theta_{\text{frozen}}) \]

InstructGPT (2022)

  • 基于 GPT-3 + RLHF
  • 核心思想:通过人类反馈对齐模型行为
  • 显著改善了模型的有用性 (helpfulness) 和安全性 (safety)
  • 1.3B 的 InstructGPT 在人类评估中优于 175B 的 GPT-3

ChatGPT (2022)

  • 基于 InstructGPT 的方法训练的对话模型
  • 面向多轮对话场景优化
  • 推动了大模型的大规模商业化应用

GPT-4 (2023)

  • 多模态输入(文本 + 图像)
  • 推理能力大幅提升,在多种专业考试中达到人类水平
  • 具体架构未公开,推测为 MoE 架构

GPT-4o (2024)

  • 原生多模态:文本、图像、音频的统一处理
  • 实时语音对话能力
  • 更快的推理速度
GPT 系列演进:

GPT-1    GPT-2    GPT-3    InstructGPT  ChatGPT   GPT-4    GPT-4o
117M     1.5B     175B     1.3B/175B      -        MoE?      -
Finetune Zero-shot ICL      RLHF        对话       多模态   全模态
2018     2019     2020     2022         2022      2023     2024

架构:Decoder-only Transformer

现代 LLM 几乎统一采用 Decoder-only Transformer 架构。

基本结构

Input Tokens → Embedding → [Decoder Block x N] → LM Head → Next Token

Decoder Block:
    ├── Causal Self-Attention (带因果掩码)
    ├── LayerNorm (Pre-Norm)
    └── Feed-Forward Network (SwiGLU)

Next-Token Prediction

LLM 的训练目标就是预测下一个 token:

\[ \mathcal{L} = -\sum_{t=1}^{T} \log P_\theta(x_t | x_{<t}) \]

尽管目标极其简单,但当模型足够大、数据足够多时,模型会隐式地学习到语法、语义、推理乃至世界知识。

现代 LLM 的架构改进

相比原始 Transformer,现代 LLM 引入了多项改进:

改进 原始 Transformer 现代 LLM
Normalization Post-Norm Pre-Norm (RMSNorm)
激活函数 ReLU SwiGLU
位置编码 Sinusoidal RoPE (旋转位置编码)
注意力 Multi-Head GQA (Grouped Query Attention)

RoPE 的核心思想是将位置信息编码为旋转矩阵:

\[ f(q, m) = R_m q, \quad \text{where } R_m = \begin{pmatrix} \cos m\theta & -\sin m\theta \\ \sin m\theta & \cos m\theta \end{pmatrix} \]

这使得注意力得分只依赖于相对位置 \(m - n\)

GQA 将 key 和 value head 共享,减少 KV cache 的内存占用,提高推理效率。


Scaling Law

Scaling Law 描述了模型性能与规模的关系。详细内容请参考 Scaling 与架构

Kaplan Scaling Law (OpenAI, 2020)

模型的 test loss 与参数量 \(N\)、数据量 \(D\)、计算量 \(C\) 之间存在幂律关系:

\[ L(N) \propto N^{-\alpha_N}, \quad L(D) \propto D^{-\alpha_D}, \quad L(C) \propto C^{-\alpha_C} \]

结论:在固定预算下,应优先增大模型参数量。

Chinchilla Scaling Law (DeepMind, 2022)

修正了 Kaplan 的结论,提出参数量和数据量应同比例增长:

\[ N_{\text{opt}} \propto C^{0.5}, \quad D_{\text{opt}} \propto C^{0.5} \]

实际建议:每个参数约需 20 个 training token。例如 70B 模型需要约 1.4T token。


涌现能力

In-context Learning (ICL)

ICL 是指模型通过上下文中的示例直接完成任务,无需参数更新:

Prompt:
  Translate English to French:
  sea otter => loutre de mer
  plush giraffe => girafe en peluche
  cheese => ?

Output: fromage

ICL 的机制仍在研究中。一种理论认为 Transformer 在前向传播中隐式地执行了梯度下降。

Chain-of-Thought (CoT)

CoT 引导模型进行分步推理,显著提升了数学和逻辑任务的表现:

\[ P(y | x) \approx P(y | r_1, r_2, \ldots, r_k, x) \cdot P(r_1, r_2, \ldots, r_k | x) \]

其中 \(r_1, \ldots, r_k\) 是中间推理步骤。

Instruction Following

经过指令微调后,模型能够理解并执行自然语言指令,而不仅仅是补全文本。


RLHF Pipeline

RLHF (Reinforcement Learning from Human Feedback) 是将 LLM 与人类偏好对齐的核心方法。

三阶段流程

阶段一:SFT (Supervised Fine-Tuning)
    收集高质量的 (指令, 回答) 数据对
    在预训练 LLM 上做监督微调

           ↓

阶段二:Reward Model (RM) 训练
    人类标注者对模型的多个回答进行排序
    训练一个奖励模型学习人类偏好
    RM Loss: L = -log(sigma(r(y_w) - r(y_l)))

           ↓

阶段三:PPO 优化
    用 RM 的得分作为奖励信号
    通过 PPO 算法优化 LLM 的策略
    加入 KL 惩罚防止偏离 SFT 模型太远

PPO 的优化目标:

\[ \max_\theta \mathbb{E}_{x, y \sim \pi_\theta} \left[ r_\phi(x, y) - \beta \cdot \text{KL}(\pi_\theta \| \pi_{\text{ref}}) \right] \]

其中 \(r_\phi\) 是 Reward Model,\(\pi_{\text{ref}}\) 是 SFT 模型,\(\beta\) 控制 KL 惩罚强度。

更多关于对齐方法的讨论见 安全与对齐


开源 LLM 生态

LLaMA 系列 (Meta)

  • LLaMA (2023):7B/13B/33B/65B,在公开数据上训练,证明了开源 LLM 的可行性
  • LLaMA 2 (2023):增加训练数据到 2T token,加入 RLHF 对齐
  • LLaMA 3 (2024):8B/70B/405B,训练数据 15T+ token,性能接近 GPT-4

Mistral 系列 (Mistral AI)

  • Mistral 7B (2023):引入 Sliding Window Attention + GQA,7B 级别性能最强
  • Mixtral 8x7B (2024):MoE 架构,8 个专家取 2 个,激活参数 12.9B

Qwen 系列 (阿里)

  • Qwen (2023):中英双语优化
  • Qwen2 (2024):多尺寸(0.5B-72B),支持 128K 上下文
  • Qwen2.5 (2024):进一步提升代码和数学能力

DeepSeek 系列 (深度求索)

  • DeepSeek-V2 (2024):MLA (Multi-head Latent Attention) + DeepSeekMoE
  • DeepSeek-V3 (2025):671B 总参数,37B 激活参数,FP8 训练
  • DeepSeek-R1 (2025):强化学习驱动的推理模型

主要 LLM 对比

模型 参数量 架构 训练数据 上下文长度 开源
GPT-4 未公开 (推测 MoE) Decoder-only 未公开 128K
LLaMA 3 405B 405B Dense Decoder 15T+ token 128K
Mistral Large 未公开 推测 MoE 未公开 128K
Mixtral 8x7B 46.7B (12.9B active) MoE 未公开 32K
Qwen2.5 72B 72B Dense Decoder 18T+ token 128K
DeepSeek-V3 671B (37B active) MoE + MLA 14.8T token 128K

总结

LLM 作为 Foundation Model 的成功来自几个关键因素:

  1. 简单而强大的目标:Next-token prediction 足以学到丰富的世界知识
  2. 规模化效应:Scaling Law 保证了性能随规模可预测地提升
  3. 涌现能力:ICL、CoT 等能力在大规模下自然出现
  4. 对齐技术:RLHF 使模型行为符合人类期望

当前 LLM 的发展趋势是:更高效的架构(MoE、MLA)、更长的上下文、更强的推理能力、以及多模态统一。


评论 #