大语言模型
从注意力机制到Transformer架构,再到BERT、GPT等预训练模型,本章节梳理大语言模型的核心技术演进。
本章内容:
- 传统NLP — 词向量、Word2Vec、语言模型基础
- 注意力机制 — 自注意力、多头注意力、缩放点积注意力
- Transformer架构 — 编码器-解码器、位置编码、层归一化
- BERT架构 — 双向编码器、掩码语言模型、NSP
- GPT架构 — 自回归生成、因果注意力、涌现能力
- ViT架构 — 图像分块、视觉Transformer
- DiT架构 — 扩散Transformer、类别条件生成