Skip to content

📚 大模型 Scaling 与稀疏架构:深度学习目录

第一阶段:Scaling Laws —— 理论与第一性原理

1. Scaling Laws 核心理论

  • Kaplan Scaling Laws (OpenAI): 参数、算力、数据三者的幂律关系。
  • Chinchilla Laws (DeepMind): 计算最优(Compute-Optimal)理论。
  • Scaling 的三个维度: 模型规模 (\(N\))、训练数据量 (\(D\))、计算量 (\(C\))。
  • Losing 收益递减: 饱和点与不可约误差(Irreducible Loss)。

2. 数据与 Token 预算

  • Data-constrained Scaling: 当互联网高质量数据耗尽时的应对策略。
  • Epoch 影响: 多轮训练对 Scaling Law 的改写。
  • Token 质量与多样性: 数据清洗对 Scaling 曲线的平移作用。

第二阶段:从 Dense 到 Sparse 的架构演进

3. Dense Transformer 的瓶颈

  • 计算量与参数的耦合: \(Compute \propto Parameters\) 的线性枷锁。
  • 推理成本挑战: 显存带宽与计算峰值的矛盾。
  • KV Cache 的扩展压力。

4. 稀疏性 (Sparsity) 基本概念

  • 结构化稀疏 vs 非结构化稀疏。
  • Sparse Attention: 滑动窗口、局部注意力等(Longformer, BigBird)。
  • Sparse FFN: MoE 的前身。

第三阶段:MoE (Mixture of Experts) 深度解构

5. MoE 基本原理与组件

  • Expert Layer: 专家层的结构设计。
  • Gating Network (Router): 路由器的数学本质。
  • 路由策略:
    • Top-k Routing (Top-1 vs Top-2)。
    • Noisy Top-k Gating (引入噪声保证多样性)。
    • Softmax vs Sigmoid Routing。

6. MoE 的核心挑战:训练稳定性与负载均衡

  • Expert Collapse (专家塌陷): 为什么模型会只卷某几个专家?
  • Load Balancing Loss: 辅助损失函数的设计。
  • Capacity Factor (容量因子): 解决 Token 溢出与丢弃问题。
  • Expert Dropping: Token 处理的边界情况。

7. 进阶路由与架构变体

  • Switch Transformer: 极致的 Top-1 路由。
  • GLaM: 针对 Few-shot 优化的稀疏模型。
  • DeepSeek MoE 创新:
    • Shared Experts (共享专家): 解决冗余信息。
    • Fine-grained Experts (细粒度专家): 提升专家利用率。
  • Expert Prototyping: 专家原型聚类。

第四阶段:分布式训练与系统工程

8. 并行策略 (Parallelism)

  • Data Parallelism (DP/DDP): 基础数据并行。
  • Model Parallelism (MP):
    • Tensor Parallelism (TP): 张量并行(层内)。
    • Pipeline Parallelism (PP): 流水线并行(层间)。
  • Expert Parallelism (EP): MoE 特有的专家并行。

9. 显存与通信优化

  • ZeRO (Zero Redundancy Optimizer): 1/2/3 阶段详解。
  • FSDP (Fully Sharded Data Parallel): PyTorch 落地实践。
  • Communication Overheads: MoE 中的 All-to-All 通信瓶颈。
  • Mixed Precision: FP16, BF16, FP8 在大规模训练中的应用。

第五阶段:推理、部署与评估

10. MoE 模型推理优化

  • 专家卸载 (Expert Offloading): 在低显存设备跑大 MoE。
  • 稀疏算子加速: 如何在 CUDA 层级优化动态路由。
  • Speculative Decoding: 针对 MoE 的投机采样技巧。

11. 经典 MoE 模型复盘 (Case Studies)

  • Mixtral 8x7B: 现代 MoE 的开源标杆。
  • Grok-1: 超大规模参数的路由实践。
  • Jamba: MoE 与 Mamba (SSM) 的结合。

第六阶段:未来走向

12. 架构的下一步

  • Compute-Parameter 解耦的极致: 动态计算分配。
  • 多模态 MoE: 不同模态专家的分化。
  • Scaling Law 在 MoE 上的重新推导: 激活参数量 vs 总参数量。

评论 #