深度学习里程碑

概述

深度学习的发展史是一部不断突破的历史。从2012年AlexNet点燃深度学习革命，到2024年MoE和SSM重塑架构范式，每个里程碑都解决了一个关键问题并开创了新方向。

timeline
    title 深度学习里程碑
    2012 : AlexNet
    2014 : GAN, VGG
    2015 : ResNet, LSTM Seq2Seq
    2017 : Transformer
    2018 : BERT, GPT
    2019 : GPT-2
    2020 : GPT-3, ViT, DDPM
    2021 : CLIP, DALL-E
    2022 : ChatGPT, Stable Diffusion, S4
    2023 : GPT-4, LLaMA, Mamba
    2024 : Mixtral, Sora, Flux, DeepSeek-V3
    2025 : DeepSeek-R1, Llama 4

1. 卷积网络时代（2012-2017）

1.1 AlexNet（2012）

项目	内容
问题	ImageNet分类准确率停滞
洞察	深层CNN + GPU训练 + ReLU + Dropout
影响	Top-5错误率从26%降至16%，开启深度学习时代
论文	Krizhevsky et al., NIPS 2012

1.2 VGG / GoogLeNet（2014）

VGG：证明深度（16-19层）和小卷积核（3x3）的重要性
GoogLeNet：Inception模块，多尺度特征

1.3 ResNet（2015）

项目	内容
问题	深层网络训练退化
洞察	残差连接 \(y = F(x) + x\)，学习残差比学习映射更容易
影响	152层网络，3.57% Top-5错误率，超越人类
论文	He et al., CVPR 2016

1.4 GAN（2014）

项目	内容
问题	生成模型质量差
洞察	生成器-判别器对抗博弈
影响	开创对抗训练范式，StyleGAN等后续工作
论文	Goodfellow et al., NeurIPS 2014

2. Transformer革命（2017-2020）

2.1 Transformer（2017）

项目	内容
问题	RNN的串行瓶颈和长距离依赖困难
洞察	自注意力机制，完全抛弃递归
影响	成为几乎所有AI领域的基础架构
论文	Vaswani et al., "Attention Is All You Need," NeurIPS 2017

2.2 BERT（2018）

项目	内容
问题	语言模型只能单向
洞察	双向掩码语言模型预训练
影响	NLP预训练范式，刷新11个任务SOTA
论文	Devlin et al., NAACL 2019

2.3 GPT / GPT-2（2018-2019）

GPT：自回归预训练 + 微调
GPT-2：1.5B参数，"太危险而不发布"，展示零样本能力

2.4 GPT-3（2020）

项目	内容
问题	模型需要针对每个任务微调
洞察	175B参数，上下文学习（In-Context Learning）
影响	少样本/零样本通用能力，Scaling Laws
论文	Brown et al., NeurIPS 2020

3. 视觉革命（2020-2022）

3.1 ViT（2020）

项目	内容
问题	视觉仍被CNN主导
洞察	图像分块 + 标准Transformer，"图像=序列"
影响	统一了视觉和NLP的架构
论文	Dosovitskiy et al., ICLR 2021

3.2 DDPM（2020）

项目	内容
问题	GAN训练不稳定，VAE生成模糊
洞察	前向加噪 + 学习反向去噪
影响	开启扩散模型时代，取代GAN
论文	Ho et al., NeurIPS 2020

3.3 CLIP（2021）

项目	内容
问题	视觉模型需要标注数据
洞察	4亿图文对的对比预训练
影响	零样本视觉分类，多模态基础
论文	Radford et al., ICML 2021

3.4 Stable Diffusion（2022）

项目	内容
问题	扩散模型在像素空间太慢
洞察	潜在空间扩散（VAE编码 + UNet去噪）
影响	开源文生图革命
论文	Rombach et al., CVPR 2022

4. LLM时代（2022-2024）

4.1 ChatGPT / InstructGPT（2022）

项目	内容
问题	LLM不遵循指令，生成有害内容
洞察	SFT + RLHF对齐技术
影响	AI进入大众视野，掀起LLM热潮

4.2 LLaMA（2023）

项目	内容
问题	大模型被大公司垄断
洞察	高效训练 + 开源
影响	开源LLM生态爆发
论文	Touvron et al., 2023

4.3 GPT-4（2023）

项目	内容
问题	需要更强的推理和多模态能力
洞察	更大规模 + 多模态 + 更强对齐
影响	展示接近AGI的通用能力

5. 架构创新（2022-2025）

5.1 S4 / Mamba（2022-2023）

项目	内容
问题	Transformer的二次复杂度限制长序列
洞察	结构化状态空间 + 选择性机制
影响	线性复杂度的Transformer替代方案

5.2 Mixtral / MoE（2024）

项目	内容
问题	密集模型扩展效率低
洞察	稀疏专家混合，参数量大但计算量小
影响	MoE成为大模型主流架构

5.3 DeepSeek-V3 / R1（2024-2025）

项目	内容
问题	大模型推理能力不足
洞察	MoE + MLA + 强化学习推理
影响	开源模型追平闭源，推理能力突破

5.4 Sora / Flux（2024）

项目	内容
问题	长视频生成困难
洞察	DiT + Flow Matching + 时空Transformer
影响	视频生成进入新阶段

6. 关键趋势总结

6.1 架构演进

graph LR
    A[CNN 2012] --> B[RNN/LSTM 2015]
    B --> C[Transformer 2017]
    C --> D[Sparse MoE 2024]
    C --> E[SSM/Mamba 2023]
    D --> F[混合架构 2024+]
    E --> F

6.2 范式变迁

时期	范式	核心
2012-2017	监督学习	大数据 + 深层网络
2018-2020	预训练+微调	BERT, GPT
2020-2022	Scaling Law	更大更好
2022-2024	对齐+指令	RLHF, SFT
2024-2025	推理扩展	Test-time compute, RL
2025+	Agent + 工具	AI作为智能体

参考文献

各里程碑论文见上述各节引用。

深度学习里程碑

概述

1. 卷积网络时代（2012-2017）

1.1 AlexNet（2012）

1.2 VGG / GoogLeNet（2014）

1.3 ResNet（2015）

1.4 GAN（2014）

2. Transformer革命（2017-2020）

2.1 Transformer（2017）

2.2 BERT（2018）

2.3 GPT / GPT-2（2018-2019）

2.4 GPT-3（2020）

3. 视觉革命（2020-2022）

3.1 ViT（2020）

3.2 DDPM（2020）

3.3 CLIP（2021）

3.4 Stable Diffusion（2022）

4. LLM时代（2022-2024）

4.1 ChatGPT / InstructGPT（2022）

4.2 LLaMA（2023）

4.3 GPT-4（2023）

5. 架构创新（2022-2025）

5.1 S4 / Mamba（2022-2023）

5.2 Mixtral / MoE（2024）

5.3 DeepSeek-V3 / R1（2024-2025）

5.4 Sora / Flux（2024）

6. 关键趋势总结

6.1 架构演进

6.2 范式变迁

参考文献

评论 #