深度学习里程碑
概述
深度学习的发展史是一部不断突破的历史。从2012年AlexNet点燃深度学习革命,到2024年MoE和SSM重塑架构范式,每个里程碑都解决了一个关键问题并开创了新方向。
timeline
title 深度学习里程碑
2012 : AlexNet
2014 : GAN, VGG
2015 : ResNet, LSTM Seq2Seq
2017 : Transformer
2018 : BERT, GPT
2019 : GPT-2
2020 : GPT-3, ViT, DDPM
2021 : CLIP, DALL-E
2022 : ChatGPT, Stable Diffusion, S4
2023 : GPT-4, LLaMA, Mamba
2024 : Mixtral, Sora, Flux, DeepSeek-V3
2025 : DeepSeek-R1, Llama 4
1. 卷积网络时代(2012-2017)
1.1 AlexNet(2012)
| 项目 |
内容 |
| 问题 |
ImageNet分类准确率停滞 |
| 洞察 |
深层CNN + GPU训练 + ReLU + Dropout |
| 影响 |
Top-5错误率从26%降至16%,开启深度学习时代 |
| 论文 |
Krizhevsky et al., NIPS 2012 |
1.2 VGG / GoogLeNet(2014)
- VGG:证明深度(16-19层)和小卷积核(3x3)的重要性
- GoogLeNet:Inception模块,多尺度特征
1.3 ResNet(2015)
| 项目 |
内容 |
| 问题 |
深层网络训练退化 |
| 洞察 |
残差连接 \(y = F(x) + x\),学习残差比学习映射更容易 |
| 影响 |
152层网络,3.57% Top-5错误率,超越人类 |
| 论文 |
He et al., CVPR 2016 |
1.4 GAN(2014)
| 项目 |
内容 |
| 问题 |
生成模型质量差 |
| 洞察 |
生成器-判别器对抗博弈 |
| 影响 |
开创对抗训练范式,StyleGAN等后续工作 |
| 论文 |
Goodfellow et al., NeurIPS 2014 |
| 项目 |
内容 |
| 问题 |
RNN的串行瓶颈和长距离依赖困难 |
| 洞察 |
自注意力机制,完全抛弃递归 |
| 影响 |
成为几乎所有AI领域的基础架构 |
| 论文 |
Vaswani et al., "Attention Is All You Need," NeurIPS 2017 |
2.2 BERT(2018)
| 项目 |
内容 |
| 问题 |
语言模型只能单向 |
| 洞察 |
双向掩码语言模型预训练 |
| 影响 |
NLP预训练范式,刷新11个任务SOTA |
| 论文 |
Devlin et al., NAACL 2019 |
2.3 GPT / GPT-2(2018-2019)
- GPT:自回归预训练 + 微调
- GPT-2:1.5B参数,"太危险而不发布",展示零样本能力
2.4 GPT-3(2020)
| 项目 |
内容 |
| 问题 |
模型需要针对每个任务微调 |
| 洞察 |
175B参数,上下文学习(In-Context Learning) |
| 影响 |
少样本/零样本通用能力,Scaling Laws |
| 论文 |
Brown et al., NeurIPS 2020 |
3. 视觉革命(2020-2022)
3.1 ViT(2020)
| 项目 |
内容 |
| 问题 |
视觉仍被CNN主导 |
| 洞察 |
图像分块 + 标准Transformer,"图像=序列" |
| 影响 |
统一了视觉和NLP的架构 |
| 论文 |
Dosovitskiy et al., ICLR 2021 |
3.2 DDPM(2020)
| 项目 |
内容 |
| 问题 |
GAN训练不稳定,VAE生成模糊 |
| 洞察 |
前向加噪 + 学习反向去噪 |
| 影响 |
开启扩散模型时代,取代GAN |
| 论文 |
Ho et al., NeurIPS 2020 |
3.3 CLIP(2021)
| 项目 |
内容 |
| 问题 |
视觉模型需要标注数据 |
| 洞察 |
4亿图文对的对比预训练 |
| 影响 |
零样本视觉分类,多模态基础 |
| 论文 |
Radford et al., ICML 2021 |
3.4 Stable Diffusion(2022)
| 项目 |
内容 |
| 问题 |
扩散模型在像素空间太慢 |
| 洞察 |
潜在空间扩散(VAE编码 + UNet去噪) |
| 影响 |
开源文生图革命 |
| 论文 |
Rombach et al., CVPR 2022 |
4. LLM时代(2022-2024)
4.1 ChatGPT / InstructGPT(2022)
| 项目 |
内容 |
| 问题 |
LLM不遵循指令,生成有害内容 |
| 洞察 |
SFT + RLHF对齐技术 |
| 影响 |
AI进入大众视野,掀起LLM热潮 |
4.2 LLaMA(2023)
| 项目 |
内容 |
| 问题 |
大模型被大公司垄断 |
| 洞察 |
高效训练 + 开源 |
| 影响 |
开源LLM生态爆发 |
| 论文 |
Touvron et al., 2023 |
4.3 GPT-4(2023)
| 项目 |
内容 |
| 问题 |
需要更强的推理和多模态能力 |
| 洞察 |
更大规模 + 多模态 + 更强对齐 |
| 影响 |
展示接近AGI的通用能力 |
5. 架构创新(2022-2025)
5.1 S4 / Mamba(2022-2023)
| 项目 |
内容 |
| 问题 |
Transformer的二次复杂度限制长序列 |
| 洞察 |
结构化状态空间 + 选择性机制 |
| 影响 |
线性复杂度的Transformer替代方案 |
5.2 Mixtral / MoE(2024)
| 项目 |
内容 |
| 问题 |
密集模型扩展效率低 |
| 洞察 |
稀疏专家混合,参数量大但计算量小 |
| 影响 |
MoE成为大模型主流架构 |
5.3 DeepSeek-V3 / R1(2024-2025)
| 项目 |
内容 |
| 问题 |
大模型推理能力不足 |
| 洞察 |
MoE + MLA + 强化学习推理 |
| 影响 |
开源模型追平闭源,推理能力突破 |
5.4 Sora / Flux(2024)
| 项目 |
内容 |
| 问题 |
长视频生成困难 |
| 洞察 |
DiT + Flow Matching + 时空Transformer |
| 影响 |
视频生成进入新阶段 |
6. 关键趋势总结
6.1 架构演进
graph LR
A[CNN 2012] --> B[RNN/LSTM 2015]
B --> C[Transformer 2017]
C --> D[Sparse MoE 2024]
C --> E[SSM/Mamba 2023]
D --> F[混合架构 2024+]
E --> F
6.2 范式变迁
| 时期 |
范式 |
核心 |
| 2012-2017 |
监督学习 |
大数据 + 深层网络 |
| 2018-2020 |
预训练+微调 |
BERT, GPT |
| 2020-2022 |
Scaling Law |
更大更好 |
| 2022-2024 |
对齐+指令 |
RLHF, SFT |
| 2024-2025 |
推理扩展 |
Test-time compute, RL |
| 2025+ |
Agent + 工具 |
AI作为智能体 |
参考文献
各里程碑论文见上述各节引用。