📚 大模型 Scaling 与稀疏架构:深度学习目录
第一阶段:Scaling Laws —— 理论与第一性原理
1. Scaling Laws 核心理论
- Kaplan Scaling Laws (OpenAI): 参数、算力、数据三者的幂律关系。
- Chinchilla Laws (DeepMind): 计算最优(Compute-Optimal)理论。
- Scaling 的三个维度: 模型规模 (\(N\))、训练数据量 (\(D\))、计算量 (\(C\))。
- Losing 收益递减: 饱和点与不可约误差(Irreducible Loss)。
2. 数据与 Token 预算
- Data-constrained Scaling: 当互联网高质量数据耗尽时的应对策略。
- Epoch 影响: 多轮训练对 Scaling Law 的改写。
- Token 质量与多样性: 数据清洗对 Scaling 曲线的平移作用。
第二阶段:从 Dense 到 Sparse 的架构演进
3. Dense Transformer 的瓶颈
- 计算量与参数的耦合: \(Compute \propto Parameters\) 的线性枷锁。
- 推理成本挑战: 显存带宽与计算峰值的矛盾。
- KV Cache 的扩展压力。
4. 稀疏性 (Sparsity) 基本概念
- 结构化稀疏 vs 非结构化稀疏。
- Sparse Attention: 滑动窗口、局部注意力等(Longformer, BigBird)。
- Sparse FFN: MoE 的前身。
第三阶段:MoE (Mixture of Experts) 深度解构
5. MoE 基本原理与组件
- Expert Layer: 专家层的结构设计。
- Gating Network (Router): 路由器的数学本质。
- 路由策略:
- Top-k Routing (Top-1 vs Top-2)。
- Noisy Top-k Gating (引入噪声保证多样性)。
- Softmax vs Sigmoid Routing。
6. MoE 的核心挑战:训练稳定性与负载均衡
- Expert Collapse (专家塌陷): 为什么模型会只卷某几个专家?
- Load Balancing Loss: 辅助损失函数的设计。
- Capacity Factor (容量因子): 解决 Token 溢出与丢弃问题。
- Expert Dropping: Token 处理的边界情况。
7. 进阶路由与架构变体
- Switch Transformer: 极致的 Top-1 路由。
- GLaM: 针对 Few-shot 优化的稀疏模型。
- DeepSeek MoE 创新:
- Shared Experts (共享专家): 解决冗余信息。
- Fine-grained Experts (细粒度专家): 提升专家利用率。
- Expert Prototyping: 专家原型聚类。
第四阶段:分布式训练与系统工程
8. 并行策略 (Parallelism)
- Data Parallelism (DP/DDP): 基础数据并行。
- Model Parallelism (MP):
- Tensor Parallelism (TP): 张量并行(层内)。
- Pipeline Parallelism (PP): 流水线并行(层间)。
- Expert Parallelism (EP): MoE 特有的专家并行。
9. 显存与通信优化
- ZeRO (Zero Redundancy Optimizer): 1/2/3 阶段详解。
- FSDP (Fully Sharded Data Parallel): PyTorch 落地实践。
- Communication Overheads: MoE 中的 All-to-All 通信瓶颈。
- Mixed Precision: FP16, BF16, FP8 在大规模训练中的应用。
第五阶段:推理、部署与评估
10. MoE 模型推理优化
- 专家卸载 (Expert Offloading): 在低显存设备跑大 MoE。
- 稀疏算子加速: 如何在 CUDA 层级优化动态路由。
- Speculative Decoding: 针对 MoE 的投机采样技巧。
11. 经典 MoE 模型复盘 (Case Studies)
- Mixtral 8x7B: 现代 MoE 的开源标杆。
- Grok-1: 超大规模参数的路由实践。
- Jamba: MoE 与 Mamba (SSM) 的结合。
第六阶段:未来走向
12. 架构的下一步
- Compute-Parameter 解耦的极致: 动态计算分配。
- 多模态 MoE: 不同模态专家的分化。
- Scaling Law 在 MoE 上的重新推导: 激活参数量 vs 总参数量。