Skip to content

刘杰夫的人工智能学习笔记

大语言模型

大语言模型

从注意力机制到Transformer架构，再到BERT、GPT等预训练模型，本章节梳理大语言模型的核心技术演进。

本章内容：

传统NLP — 词向量、Word2Vec、语言模型基础
注意力机制 — 自注意力、多头注意力、缩放点积注意力
Transformer架构 — 编码器-解码器、位置编码、层归一化
BERT架构 — 双向编码器、掩码语言模型、NSP
GPT架构 — 自回归生成、因果注意力、涌现能力
ViT架构 — 图像分块、视觉Transformer
DiT架构 — 扩散Transformer、类别条件生成

评论 #