深度学习全景
深度学习(Deep Learning)是机器学习的一个子领域,通过多层神经网络从数据中自动学习层次化的特征表示。从 2012 年 AlexNet 震惊世界开始,深度学习已经成为人工智能最核心的技术范式。
深度学习技术栈全景
graph TD
A[深度学习] --> B[基础架构]
A --> C[学习范式]
A --> D[应用领域]
A --> E[工程实践]
B --> B1[MLP/前馈网络]
B --> B2[CNN 卷积网络]
B --> B3[RNN/LSTM/GRU]
B --> B4[Transformer]
B --> B5[GNN 图网络]
B --> B6[SSM/Mamba]
C --> C1[监督学习]
C --> C2[自监督学习]
C --> C3[生成式学习]
C --> C4[强化学习微调]
D --> D1[计算机视觉]
D --> D2[自然语言处理]
D --> D3[多模态]
D --> D4[科学计算]
E --> E1[分布式训练]
E --> E2[模型压缩]
E --> E3[高效推理]
E --> E4[MLOps]
架构演进时间线
| 年代 | 里程碑 | 核心创新 | 影响 |
|---|---|---|---|
| 1986 | 反向传播 | 误差反向传播算法 | 多层网络可训练 |
| 1998 | LeNet-5 | 卷积+池化 | 手写数字识别 |
| 2012 | AlexNet | GPU训练+ReLU+Dropout | ImageNet 错误率骤降,DL爆发 |
| 2014 | GoogLeNet/VGG | 更深网络,Inception模块 | 深度的力量 |
| 2015 | ResNet | 残差连接 | 突破深度限制(152层) |
| 2014 | GAN | 生成对抗网络 | 生成式AI开端 |
| 2014 | Seq2Seq+Attention | 注意力机制 | 机器翻译突破 |
| 2017 | Transformer | 自注意力,抛弃RNN | NLP范式革命 |
| 2018 | BERT | 双向预训练 | NLU新标杆 |
| 2018 | GPT | 自回归预训练 | 语言生成 |
| 2020 | ViT | Transformer用于视觉 | CV+NLP统一 |
| 2020 | GPT-3 | 175B参数,涌现能力 | 大模型时代开启 |
| 2021 | CLIP | 视觉-语言对比学习 | 多模态对齐 |
| 2022 | Stable Diffusion | 潜空间扩散模型 | 文生图爆发 |
| 2022 | ChatGPT | RLHF对齐 | AI走向大众 |
| 2023 | GPT-4 | 多模态大模型 | AGI讨论 |
| 2023 | Mamba | 状态空间模型 | Transformer替代 |
| 2024 | Llama 4/DeepSeek | MoE架构 | 高效大模型 |
核心学习范式
监督学习
最传统的范式:给定标注数据 \((x_i, y_i)\),最小化损失:
\[\min_\theta \frac{1}{N}\sum_{i=1}^{N} \mathcal{L}(f_\theta(x_i), y_i)\]
自监督学习
从数据自身构造监督信号,无需人工标注:
- 对比学习:拉近正样本对,推远负样本对(SimCLR/MoCo/CLIP)
- 掩码预测:遮掩输入的一部分,预测被遮掩内容(BERT/MAE)
- 自回归预测:基于前文预测下一个token(GPT系列)
生成式学习
学习数据分布 \(p(x)\) 并生成新样本:
| 方法 | 原理 | 代表模型 |
|---|---|---|
| VAE | 变分推断,ELBO最大化 | VAE, VQ-VAE |
| GAN | 生成器vs判别器对抗 | StyleGAN, BigGAN |
| Diffusion | 逐步去噪 | DDPM, Stable Diffusion |
| Flow Matching | 学习概率流ODE | Rectified Flow |
| Autoregressive | 逐token生成 | GPT, DALL-E |
本板块导航
- 基础 — MLP、损失函数、概率统计基础
- CNN — 卷积网络原理与架构演进
- RNN — 序列建模:RNN→LSTM→GRU
- Transformer — 自注意力架构
- 生成模型 — VAE/GAN/Diffusion/Flow
- GNN — 图神经网络
- 基座模型 — LLM/视觉/多模态
- SSM/Mamba — 状态空间模型
- 优化与正则 — 训练技巧
- 前沿趋势 — MoE/高效推理/最新进展