CNN架构

LeNet-5

LeNet-5是CNN的鼻祖，由Yann LeCun于1998年提出，确立了卷积（Conv）、池化（Pooling）和全连接（FC）的基本范式。

2012年，AlexNet首次使用ReLU 激活函数、Dropout 防止过拟合，并利用 GPU 加速训练。AlexNet 的出现标志着深度学习统治计算机视觉的开始。

2014年的VGGNet证明了“深度”的重要性。它全部采用 \(3 \times 3\) 小卷积核堆叠，结构极其整齐，虽然参数量巨大，但至今仍是常用的特征提取基准。

2014年的GoogLeNet引入了 Inception 模块（多尺度卷积并行） 。它不只是单纯加深，而是加宽了网络，利用 \(1 \times 1\) 卷积大幅降低了计算量。

当网络超过 20 层时，由于梯度消失问题，模型性能反而会下降。2015年，ResNet引入了残差连接（Skip Connection），这让训练上百层甚至上千层的网络成为可能。

ResNet 是现代 CNN 的核心骨架 ，后面大多数架构本质都在它上面改。

ResNet是深度学习历史上最为重要的发明，其重要性不亚于反向传播和Attention机制。

在 CNN 之前，网络很难超过 20 层。一旦深了，梯度就消失了（Vanishing Gradient），训练不动。

2015 年何恺明大神提出了 ResNet（残差网络），直接把网络干到了 152 层甚至 1000 层。

它的核心公式简单到令人发指：

\[ y = F(x) + x \]

意思是：这一层的输出 = 这一层的计算结果 + 原始输入 。

ResNet 解决了“能训更深”，DenseNet 更进一步解决了“特征不浪费”。

核心是 深度可分离卷积（Depthwise Separable Convolution） 。将计算量压缩到传统卷积的约 1/9。你必须知道它是因为现实世界部署里它太常见了（手机、边缘设备）。

引入 通道洗牌（Channel Shuffle） 操作，通过打乱通道信息流来提升轻量级模型的特征表达能力。