跳转至

刘杰夫的人工智能学习笔记

深度学习全景

深度学习全景

深度学习（Deep Learning）是机器学习的一个子领域，通过多层神经网络从数据中自动学习层次化的特征表示。从 2012 年 AlexNet 震惊世界开始，深度学习已经成为人工智能最核心的技术范式。

深度学习技术栈全景

graph TD
    A[深度学习] --> B[基础架构]
    A --> C[学习范式]
    A --> D[应用领域]
    A --> E[工程实践]

    B --> B1[MLP/前馈网络]
    B --> B2[CNN 卷积网络]
    B --> B3[RNN/LSTM/GRU]
    B --> B4[Transformer]
    B --> B5[GNN 图网络]
    B --> B6[SSM/Mamba]

    C --> C1[监督学习]
    C --> C2[自监督学习]
    C --> C3[生成式学习]
    C --> C4[强化学习微调]

    D --> D1[计算机视觉]
    D --> D2[自然语言处理]
    D --> D3[多模态]
    D --> D4[科学计算]

    E --> E1[分布式训练]
    E --> E2[模型压缩]
    E --> E3[高效推理]
    E --> E4[MLOps]

架构演进时间线

年代	里程碑	核心创新	影响
1986	反向传播	误差反向传播算法	多层网络可训练
1998	LeNet-5	卷积+池化	手写数字识别
2012	AlexNet	GPU训练+ReLU+Dropout	ImageNet 错误率骤降，DL爆发
2014	GoogLeNet/VGG	更深网络，Inception模块	深度的力量
2015	ResNet	残差连接	突破深度限制（152层）
2014	GAN	生成对抗网络	生成式AI开端
2014	Seq2Seq+Attention	注意力机制	机器翻译突破
2017	Transformer	自注意力，抛弃RNN	NLP范式革命
2018	BERT	双向预训练	NLU新标杆
2018	GPT	自回归预训练	语言生成
2020	ViT	Transformer用于视觉	CV+NLP统一
2020	GPT-3	175B参数，涌现能力	大模型时代开启
2021	CLIP	视觉-语言对比学习	多模态对齐
2022	Stable Diffusion	潜空间扩散模型	文生图爆发
2022	ChatGPT	RLHF对齐	AI走向大众
2023	GPT-4	多模态大模型	AGI讨论
2023	Mamba	状态空间模型	Transformer替代
2024	Llama 4/DeepSeek	MoE架构	高效大模型

核心学习范式

监督学习

最传统的范式：给定标注数据 \((x_i, y_i)\)，最小化损失：

\[\min_\theta \frac{1}{N}\sum_{i=1}^{N} \mathcal{L}(f_\theta(x_i), y_i)\]

自监督学习

从数据自身构造监督信号，无需人工标注：

对比学习：拉近正样本对，推远负样本对（SimCLR/MoCo/CLIP）
掩码预测：遮掩输入的一部分，预测被遮掩内容（BERT/MAE）
自回归预测：基于前文预测下一个token（GPT系列）

生成式学习

学习数据分布 \(p(x)\) 并生成新样本：

方法	原理	代表模型
VAE	变分推断，ELBO最大化	VAE, VQ-VAE
GAN	生成器vs判别器对抗	StyleGAN, BigGAN
Diffusion	逐步去噪	DDPM, Stable Diffusion
Flow Matching	学习概率流ODE	Rectified Flow
Autoregressive	逐token生成	GPT, DALL-E

本板块导航

基础 — MLP、损失函数、概率统计基础
CNN — 卷积网络原理与架构演进
RNN — 序列建模：RNN→LSTM→GRU
Transformer — 自注意力架构
生成模型 — VAE/GAN/Diffusion/Flow
GNN — 图神经网络
基座模型 — LLM/视觉/多模态
SSM/Mamba — 状态空间模型
优化与正则 — 训练技巧
前沿趋势 — MoE/高效推理/最新进展

评论 #