Skip to content

大语言模型

从注意力机制到Transformer架构,再到BERT、GPT等预训练模型,本章节梳理大语言模型的核心技术演进。

本章内容:

  • 传统NLP — 词向量、Word2Vec、语言模型基础
  • 注意力机制 — 自注意力、多头注意力、缩放点积注意力
  • Transformer架构 — 编码器-解码器、位置编码、层归一化
  • BERT架构 — 双向编码器、掩码语言模型、NSP
  • GPT架构 — 自回归生成、因果注意力、涌现能力
  • ViT架构 — 图像分块、视觉Transformer
  • DiT架构 — 扩散Transformer、类别条件生成

评论 #