优化与正则
优化与正则化是训练深度神经网络的关键技术,决定了模型的收敛速度与泛化能力。
本章内容:
- 优化理论 — 凸优化、梯度下降、鞍点问题
- Optimizer — SGD、Adam、AdamW、LAMB
- Initialization — Xavier、He初始化、正交初始化
- LR Scheduling — 学习率预热、余弦退火、周期性调度
- Normalization — BatchNorm、LayerNorm、GroupNorm
- Regularization — Dropout、权重衰减、数据增强
- 优化实验对比 — 不同优化策略的实验比较