LLM 作为 Foundation Model

GPT 系列演进

GPT 系列是 Foundation Model 最具代表性的发展脉络，展示了 "规模化 + 对齐" 的完整路径。

GPT-1 (2018)

参数量：117M
核心思想：用 Transformer Decoder 做自回归语言模型预训练，再微调到下游任务
训练数据：BookCorpus（约 5GB 文本）
意义：首次验证了 "pretrain + finetune" 在 NLP 中的有效性

GPT-2 (2019)

参数量：1.5B（10 倍于 GPT-1）
核心思想：Language model 可以作为 unsupervised multitask learner
训练数据：WebText（约 40GB）
关键发现：模型在未经微调的情况下就能完成一些任务（zero-shot）

GPT-3 (2020)

参数量：175B
核心突破：In-context Learning -- 不需要微调，只需要在 prompt 中给几个示例
训练数据：约 570GB 过滤后的文本
意义：规模化带来了质变，涌现出 few-shot 能力

\[ P(y | x_{\text{prompt}}) = P(y | [\text{examples}; x_{\text{query}}]; \theta_{\text{frozen}}) \]

InstructGPT (2022)

基于 GPT-3 + RLHF
核心思想：通过人类反馈对齐模型行为
显著改善了模型的有用性 (helpfulness) 和安全性 (safety)
1.3B 的 InstructGPT 在人类评估中优于 175B 的 GPT-3

ChatGPT (2022)

基于 InstructGPT 的方法训练的对话模型
面向多轮对话场景优化
推动了大模型的大规模商业化应用

GPT-4 (2023)

多模态输入（文本 + 图像）
推理能力大幅提升，在多种专业考试中达到人类水平
具体架构未公开，推测为 MoE 架构

GPT-4o (2024)

原生多模态：文本、图像、音频的统一处理
实时语音对话能力
更快的推理速度

GPT 系列演进：

GPT-1    GPT-2    GPT-3    InstructGPT  ChatGPT   GPT-4    GPT-4o
117M     1.5B     175B     1.3B/175B      -        MoE?      -
Finetune Zero-shot ICL      RLHF        对话       多模态   全模态
2018     2019     2020     2022         2022      2023     2024

架构：Decoder-only Transformer

现代 LLM 几乎统一采用 Decoder-only Transformer 架构。

基本结构

Input Tokens → Embedding → [Decoder Block x N] → LM Head → Next Token

Decoder Block:
    ├── Causal Self-Attention (带因果掩码)
    ├── LayerNorm (Pre-Norm)
    └── Feed-Forward Network (SwiGLU)

Next-Token Prediction

LLM 的训练目标就是预测下一个 token：

\[ \mathcal{L} = -\sum_{t=1}^{T} \log P_\theta(x_t | x_{<t}) \]

尽管目标极其简单，但当模型足够大、数据足够多时，模型会隐式地学习到语法、语义、推理乃至世界知识。

现代 LLM 的架构改进

相比原始 Transformer，现代 LLM 引入了多项改进：

改进	原始 Transformer	现代 LLM
Normalization	Post-Norm	Pre-Norm (RMSNorm)
激活函数	ReLU	SwiGLU
位置编码	Sinusoidal	RoPE (旋转位置编码)
注意力	Multi-Head	GQA (Grouped Query Attention)

RoPE 的核心思想是将位置信息编码为旋转矩阵：

\[ f(q, m) = R_m q, \quad \text{where } R_m = \begin{pmatrix} \cos m\theta & -\sin m\theta \\ \sin m\theta & \cos m\theta \end{pmatrix} \]

这使得注意力得分只依赖于相对位置 \(m - n\)。

GQA 将 key 和 value head 共享，减少 KV cache 的内存占用，提高推理效率。

Scaling Law

Scaling Law 描述了模型性能与规模的关系。详细内容请参考 Scaling 与架构。

Kaplan Scaling Law (OpenAI, 2020)

模型的 test loss 与参数量 \(N\)、数据量 \(D\)、计算量 \(C\) 之间存在幂律关系：

\[ L(N) \propto N^{-\alpha_N}, \quad L(D) \propto D^{-\alpha_D}, \quad L(C) \propto C^{-\alpha_C} \]

结论：在固定预算下，应优先增大模型参数量。

Chinchilla Scaling Law (DeepMind, 2022)

修正了 Kaplan 的结论，提出参数量和数据量应同比例增长：

\[ N_{\text{opt}} \propto C^{0.5}, \quad D_{\text{opt}} \propto C^{0.5} \]

实际建议：每个参数约需 20 个 training token。例如 70B 模型需要约 1.4T token。

涌现能力

In-context Learning (ICL)

ICL 是指模型通过上下文中的示例直接完成任务，无需参数更新：

Prompt:
  Translate English to French:
  sea otter => loutre de mer
  plush giraffe => girafe en peluche
  cheese => ?

Output: fromage

ICL 的机制仍在研究中。一种理论认为 Transformer 在前向传播中隐式地执行了梯度下降。

Chain-of-Thought (CoT)

CoT 引导模型进行分步推理，显著提升了数学和逻辑任务的表现：

\[ P(y | x) \approx P(y | r_1, r_2, \ldots, r_k, x) \cdot P(r_1, r_2, \ldots, r_k | x) \]

其中 \(r_1, \ldots, r_k\) 是中间推理步骤。

Instruction Following

经过指令微调后，模型能够理解并执行自然语言指令，而不仅仅是补全文本。

RLHF Pipeline

RLHF (Reinforcement Learning from Human Feedback) 是将 LLM 与人类偏好对齐的核心方法。

三阶段流程

阶段一：SFT (Supervised Fine-Tuning)
    收集高质量的 (指令, 回答) 数据对
    在预训练 LLM 上做监督微调

           ↓

阶段二：Reward Model (RM) 训练
    人类标注者对模型的多个回答进行排序
    训练一个奖励模型学习人类偏好
    RM Loss: L = -log(sigma(r(y_w) - r(y_l)))

           ↓

阶段三：PPO 优化
    用 RM 的得分作为奖励信号
    通过 PPO 算法优化 LLM 的策略
    加入 KL 惩罚防止偏离 SFT 模型太远

PPO 的优化目标：

\[ \max_\theta \mathbb{E}_{x, y \sim \pi_\theta} \left[ r_\phi(x, y) - \beta \cdot \text{KL}(\pi_\theta \| \pi_{\text{ref}}) \right] \]

其中 \(r_\phi\) 是 Reward Model，\(\pi_{\text{ref}}\) 是 SFT 模型，\(\beta\) 控制 KL 惩罚强度。

更多关于对齐方法的讨论见安全与对齐。

开源 LLM 生态

LLaMA 系列 (Meta)

LLaMA (2023)：7B/13B/33B/65B，在公开数据上训练，证明了开源 LLM 的可行性
LLaMA 2 (2023)：增加训练数据到 2T token，加入 RLHF 对齐
LLaMA 3 (2024)：8B/70B/405B，训练数据 15T+ token，性能接近 GPT-4

Mistral 系列 (Mistral AI)

Mistral 7B (2023)：引入 Sliding Window Attention + GQA，7B 级别性能最强
Mixtral 8x7B (2024)：MoE 架构，8 个专家取 2 个，激活参数 12.9B

Qwen 系列 (阿里)

Qwen (2023)：中英双语优化
Qwen2 (2024)：多尺寸（0.5B-72B），支持 128K 上下文
Qwen2.5 (2024)：进一步提升代码和数学能力

DeepSeek 系列 (深度求索)

DeepSeek-V2 (2024)：MLA (Multi-head Latent Attention) + DeepSeekMoE
DeepSeek-V3 (2025)：671B 总参数，37B 激活参数，FP8 训练
DeepSeek-R1 (2025)：强化学习驱动的推理模型

主要 LLM 对比

模型	参数量	架构	训练数据	上下文长度	开源
GPT-4	未公开 (推测 MoE)	Decoder-only	未公开	128K	否
LLaMA 3 405B	405B	Dense Decoder	15T+ token	128K	是
Mistral Large	未公开	推测 MoE	未公开	128K	否
Mixtral 8x7B	46.7B (12.9B active)	MoE	未公开	32K	是
Qwen2.5 72B	72B	Dense Decoder	18T+ token	128K	是
DeepSeek-V3	671B (37B active)	MoE + MLA	14.8T token	128K	是

总结

LLM 作为 Foundation Model 的成功来自几个关键因素：

简单而强大的目标：Next-token prediction 足以学到丰富的世界知识
规模化效应：Scaling Law 保证了性能随规模可预测地提升
涌现能力：ICL、CoT 等能力在大规模下自然出现
对齐技术：RLHF 使模型行为符合人类期望

当前 LLM 的发展趋势是：更高效的架构（MoE、MLA）、更长的上下文、更强的推理能力、以及多模态统一。