CNN架构
LeNet-5
LeNet-5是CNN的鼻祖,由Yann LeCun于1998年提出,确立了卷积(Conv)、池化(Pooling)和全连接(FC)的基本范式。
AlexNet
2012年,AlexNet首次使用ReLU 激活函数、Dropout 防止过拟合,并利用 GPU 加速训练。AlexNet 的出现标志着深度学习统治计算机视觉的开始。
VGGNet
2014年的VGGNet证明了“深度”的重要性。它全部采用 \(3 \times 3\) 小卷积核堆叠,结构极其整齐,虽然参数量巨大,但至今仍是常用的特征提取基准。
Inception
2014年的GoogLeNet引入了 Inception 模块(多尺度卷积并行) 。它不只是单纯加深,而是加宽了网络,利用 \(1 \times 1\) 卷积大幅降低了计算量。
ResNet
当网络超过 20 层时,由于梯度消失问题,模型性能反而会下降。2015年,ResNet引入了残差连接(Skip Connection),这让训练上百层甚至上千层的网络成为可能。
ResNet 是现代 CNN 的核心骨架 ,后面大多数架构本质都在它上面改。
ResNet是深度学习历史上最为重要的发明,其重要性不亚于反向传播和Attention机制。
在 CNN 之前,网络很难超过 20 层。一旦深了,梯度就消失了(Vanishing Gradient),训练不动。
2015 年何恺明大神提出了 ResNet(残差网络),直接把网络干到了 152 层甚至 1000 层。
它的核心公式简单到令人发指:
意思是:这一层的输出 = 这一层的计算结果 + 原始输入 。
DenseNet
ResNet 解决了“能训更深”,DenseNet 更进一步解决了“特征不浪费”。
MobileNet系列
核心是 深度可分离卷积(Depthwise Separable Convolution) 。将计算量压缩到传统卷积的约 1/9。你必须知道它是因为现实世界部署里它太常见了(手机、边缘设备)。
ShuffleNet
引入 通道洗牌(Channel Shuffle) 操作,通过打乱通道信息流来提升轻量级模型的特征表达能力。