跳转至

深度学习全景

深度学习(Deep Learning)是机器学习的一个子领域,通过多层神经网络从数据中自动学习层次化的特征表示。从 2012 年 AlexNet 震惊世界开始,深度学习已经成为人工智能最核心的技术范式。

深度学习技术栈全景

graph TD
    A[深度学习] --> B[基础架构]
    A --> C[学习范式]
    A --> D[应用领域]
    A --> E[工程实践]

    B --> B1[MLP/前馈网络]
    B --> B2[CNN 卷积网络]
    B --> B3[RNN/LSTM/GRU]
    B --> B4[Transformer]
    B --> B5[GNN 图网络]
    B --> B6[SSM/Mamba]

    C --> C1[监督学习]
    C --> C2[自监督学习]
    C --> C3[生成式学习]
    C --> C4[强化学习微调]

    D --> D1[计算机视觉]
    D --> D2[自然语言处理]
    D --> D3[多模态]
    D --> D4[科学计算]

    E --> E1[分布式训练]
    E --> E2[模型压缩]
    E --> E3[高效推理]
    E --> E4[MLOps]

架构演进时间线

年代 里程碑 核心创新 影响
1986 反向传播 误差反向传播算法 多层网络可训练
1998 LeNet-5 卷积+池化 手写数字识别
2012 AlexNet GPU训练+ReLU+Dropout ImageNet 错误率骤降,DL爆发
2014 GoogLeNet/VGG 更深网络,Inception模块 深度的力量
2015 ResNet 残差连接 突破深度限制(152层)
2014 GAN 生成对抗网络 生成式AI开端
2014 Seq2Seq+Attention 注意力机制 机器翻译突破
2017 Transformer 自注意力,抛弃RNN NLP范式革命
2018 BERT 双向预训练 NLU新标杆
2018 GPT 自回归预训练 语言生成
2020 ViT Transformer用于视觉 CV+NLP统一
2020 GPT-3 175B参数,涌现能力 大模型时代开启
2021 CLIP 视觉-语言对比学习 多模态对齐
2022 Stable Diffusion 潜空间扩散模型 文生图爆发
2022 ChatGPT RLHF对齐 AI走向大众
2023 GPT-4 多模态大模型 AGI讨论
2023 Mamba 状态空间模型 Transformer替代
2024 Llama 4/DeepSeek MoE架构 高效大模型

核心学习范式

监督学习

最传统的范式:给定标注数据 \((x_i, y_i)\),最小化损失:

\[\min_\theta \frac{1}{N}\sum_{i=1}^{N} \mathcal{L}(f_\theta(x_i), y_i)\]

自监督学习

从数据自身构造监督信号,无需人工标注:

  • 对比学习:拉近正样本对,推远负样本对(SimCLR/MoCo/CLIP)
  • 掩码预测:遮掩输入的一部分,预测被遮掩内容(BERT/MAE)
  • 自回归预测:基于前文预测下一个token(GPT系列)

生成式学习

学习数据分布 \(p(x)\) 并生成新样本:

方法 原理 代表模型
VAE 变分推断,ELBO最大化 VAE, VQ-VAE
GAN 生成器vs判别器对抗 StyleGAN, BigGAN
Diffusion 逐步去噪 DDPM, Stable Diffusion
Flow Matching 学习概率流ODE Rectified Flow
Autoregressive 逐token生成 GPT, DALL-E

本板块导航


评论 #