Skip to content

刘杰夫的人工智能学习笔记

Scaling与架构

📚 大模型 Scaling 与稀疏架构：深度学习目录

第一阶段：Scaling Laws —— 理论与第一性原理

1. Scaling Laws 核心理论

Kaplan Scaling Laws (OpenAI): 参数、算力、数据三者的幂律关系。
Chinchilla Laws (DeepMind): 计算最优（Compute-Optimal）理论。
Scaling 的三个维度： 模型规模 (\(N\))、训练数据量 (\(D\))、计算量 (\(C\))。
Losing 收益递减： 饱和点与不可约误差（Irreducible Loss）。

2. 数据与 Token 预算

Data-constrained Scaling: 当互联网高质量数据耗尽时的应对策略。
Epoch 影响： 多轮训练对 Scaling Law 的改写。
Token 质量与多样性： 数据清洗对 Scaling 曲线的平移作用。

第二阶段：从 Dense 到 Sparse 的架构演进

3. Dense Transformer 的瓶颈

计算量与参数的耦合： \(Compute \propto Parameters\) 的线性枷锁。
推理成本挑战： 显存带宽与计算峰值的矛盾。
KV Cache 的扩展压力。

4. 稀疏性 (Sparsity) 基本概念

结构化稀疏 vs 非结构化稀疏。
Sparse Attention: 滑动窗口、局部注意力等（Longformer, BigBird）。
Sparse FFN: MoE 的前身。

第三阶段：MoE (Mixture of Experts) 深度解构

5. MoE 基本原理与组件

Expert Layer: 专家层的结构设计。
Gating Network (Router): 路由器的数学本质。
路由策略：
- Top-k Routing (Top-1 vs Top-2)。
- Noisy Top-k Gating (引入噪声保证多样性)。
- Softmax vs Sigmoid Routing。

6. MoE 的核心挑战：训练稳定性与负载均衡

Expert Collapse (专家塌陷): 为什么模型会只卷某几个专家？
Load Balancing Loss: 辅助损失函数的设计。
Capacity Factor (容量因子): 解决 Token 溢出与丢弃问题。
Expert Dropping: Token 处理的边界情况。

7. 进阶路由与架构变体

Switch Transformer: 极致的 Top-1 路由。
GLaM: 针对 Few-shot 优化的稀疏模型。
DeepSeek MoE 创新：
- Shared Experts (共享专家): 解决冗余信息。
- Fine-grained Experts (细粒度专家): 提升专家利用率。
Expert Prototyping: 专家原型聚类。

第四阶段：分布式训练与系统工程

8. 并行策略 (Parallelism)

Data Parallelism (DP/DDP): 基础数据并行。
Model Parallelism (MP):
- Tensor Parallelism (TP): 张量并行（层内）。
- Pipeline Parallelism (PP): 流水线并行（层间）。
Expert Parallelism (EP): MoE 特有的专家并行。

9. 显存与通信优化

ZeRO (Zero Redundancy Optimizer): 1/2/3 阶段详解。
FSDP (Fully Sharded Data Parallel): PyTorch 落地实践。
Communication Overheads: MoE 中的 All-to-All 通信瓶颈。
Mixed Precision: FP16, BF16, FP8 在大规模训练中的应用。

第五阶段：推理、部署与评估

10. MoE 模型推理优化

专家卸载 (Expert Offloading): 在低显存设备跑大 MoE。
稀疏算子加速: 如何在 CUDA 层级优化动态路由。
Speculative Decoding: 针对 MoE 的投机采样技巧。

11. 经典 MoE 模型复盘 (Case Studies)

Mixtral 8x7B: 现代 MoE 的开源标杆。
Grok-1: 超大规模参数的路由实践。
Jamba: MoE 与 Mamba (SSM) 的结合。

第六阶段：未来走向

12. 架构的下一步

Compute-Parameter 解耦的极致： 动态计算分配。
多模态 MoE: 不同模态专家的分化。
Scaling Law 在 MoE 上的重新推导： 激活参数量 vs 总参数量。

评论 #