Cheat Sheet

人工智能主要学习方法的模型结构、损失函数和常用优化算法。

范式分类	模型类别	模型结构 (Representation)	损失函数/目标 (Loss/Objective)	常用优化算法 (Optimizer)	核心应用场景
监督学习	线性回归	$y = \mathbf{w}^T\mathbf{x} + b$	MSE(均方误差)	最小二乘法、SGD	连续数值预测
	逻辑回归	$\sigma(\mathbf{w}^T\mathbf{x} + b)$	交叉熵(基于 MLE)	梯度下降、L-BFGS	二分类概率预测
	SVM	空间超平面 (核映射)	Hinge Loss	SMO 算法	高维小样本分类
	决策树/森林	树状分裂 (if-then)	基尼系数 / 信息增益	递归启发式分裂	结构化数据分析
	梯度提升树	加法模型 (决策树累加)	自定义损失 (需二阶导)	梯度提升 (GBDT)	推荐、风控、搜索
深度学习	CNN	卷积 + 池化层	交叉熵 (Softmax)	Adam、SGD	图像、视频处理
	RNN/LSTM	循环隐藏状态$h$	交叉熵 (按时间步)	RMSprop、Adam	语音、序列预测
	Transformer	自注意力机制	交叉熵 (Label Smooth)	AdamW	LLM、多模态
生成模型	GANs	生成器 vs 判别器	Min-Max 对抗损失	分步 SGD / Adam	图像生成、换脸
	Diffusion	递归去噪 (U-Net)	MSE (预测噪声误差)	Adam	文生图 (DALL-E)
无监督学习	K-Means	簇中心点 (Centroids)	SSE(簇内误差平方和)	坐标下降 (EM迭代)	客户分群、数据压缩
	PCA	线性正交投影	方差最大化/ 投影误差	特征值分解 (SVD)	数据降维、特征提取
强化学习	Q-Learning	Q-Table / Q-Network	TD Error(时序差分)	贝尔曼方程更新	游戏 AI、机器人控制
	PPO/Policy	策略网络	累积期望回报	策略梯度 (PG)	自动驾驶、RLHF

评估与稳健性（评价指标、验证策略、偏差与方差）

范式分类	对应模型层级	核心评价指标 (Metrics)	验证策略 (Validation)	偏差/方差表现
监督学习	线性/逻辑/SVM	MSE / AUC / Recall	K-折交叉验证	易出现高偏差 (欠拟合)
	树模型/提升树	F1-Score / Gain	Hold-out (留出法)	易出现高方差 (过拟合)
深度学习	CNN/RNN/Trans.	Top-K Acc / BLEU	训练/开发/测试集划分	依靠大数据量压低方差
生成模型	GANs/Diffusion	FID / IS / CLIP Score	主观评价 + 统计拟合度	训练不稳定 (模式崩溃)
无监督/强化	K-Means / PPO	轮廓系数 / 累积回报	外部指标 (如标签对比)	策略震荡与环境过拟合

优化与泛化（优化手段、正则、泛化）

范式分类	典型模型	核心优化手段	正则化技术 (Regularization)	泛化提升技巧
监督学习	线性/逻辑/SVM	权重衰减 (Weight Decay)	L1 / L2 正则	特征缩放 (Scaling)
	树模型/提升树	学习率收缩 (Shrinkage)	树深度限制 / 叶子节点数	行/列随机采样 (Subsample)
深度学习	所有神经网络	Batch Norm / 改良优化器	Dropout / Early Stop	数据增强 (Augmentation)
生成模型	GANs/Diffusion	谱归一化 (Spectral Norm)	梯度惩罚 (GP)	指数移动平均 (EMA)
强化学习	PPO/Q-Learning	优势函数 (Advantage)	熵正则 (Entropy Bonus)	经验回放 (Replay Buffer)

特征与工程（特征工程、压缩、在线/离线一致性）

范式分类	核心考点	特征工程重点	模型压缩/加速	在线一致性挑战
经典机器	特征选择	归一化 / One-hot	特征裁剪 (降维)	离线计算特征延迟
集成学习	特征重要度	缺失值处理 / 异常值	剪枝 (Pruning)	大规模 ID 特征同步
深度学习	自动特征提取	Embedding 层设计	量化 / 蒸馏 (Distillation)	推理引擎 (TensorRT) 适配
生成模型	隐空间映射	降噪强度调节	低秩适配 (LoRA)	算力成本与生成时效
强化学习	状态空间描述	状态标准化 (State Norm)	神经网络轻量化	环境模拟器与现实差异

业务理解与闭环（场景适配、冷启动、长尾问题）

范式分类	业务核心点	样本不平衡处理	冷启动/解释性	业务闭环监控
分类/回归	准确性与稳定	SMOTE / Class Weight	SHAP / LIME (可解释性)	特征漂移 (Drift) 监控
推荐/排序	转化率 (CVR)	负采样策略 (Sampling)	热门垫底 / 协同过滤	A/B Test 分流验证
NLP/生成	交互体验	焦点词加权	提示词工程 (Prompt)	幻觉检测 (Hallucination)
强化学习	长期收益	奖励函数设计 (Shaping)	探索与利用 (Epsilon)	线上策略安全熔断

。

基本公式

前向传播(Forward Propagation)

线性变换：

\[ \mathbf{z} = \mathbf{W}\mathbf{x} + \mathbf{b} \]

激活函数 (Softmax)：

将输出转为概率分布，对于第 $j$ 个类别：

\[ \hat{y}_j = \text{softmax}(z_j) = \frac{\exp(z_j)}{\sum_{k=1}^{q} \exp(z_k)} \]

损失函数(Loss Function)

交叉熵损失 (Cross-Entropy Loss)：

假设真实标签的 One-hot 向量为 $\mathbf{y}$，预测概率为 $\mathbf{\hat{y}}$：

\[ L(\mathbf{y}, \mathbf{\hat{y}}) = -\sum_{j=1}^{q} y_j \log \hat{y}_j \]

注：在分类中，由于 $y_j$ 只有一个位置是 1，其余是 0，公式实际简化为 $L = -\log \hat{y}_{\text{correct\_class}}$。

反向传播(Backpropagation)

利用链式法则计算损失函数对参数的偏导数（梯度）。

损失对输出层的梯度： 这是一个非常优雅的结果，Softmax 配合交叉熵求导后：

$$ \frac{\partial L}{\partial \mathbf{z}} = \mathbf{\hat{y}} - \mathbf{y} $$ * 对参数的梯度：

\[ \nabla_{\mathbf{W}} L = (\mathbf{\hat{y}} - \mathbf{y}) \mathbf{x}^T \]

\[ \nabla_{\mathbf{b}} L = \mathbf{\hat{y}} - \mathbf{y} \]

参数更新(Optimization)

根据计算出的梯度，沿着减少误差的方向修正参数。

随机梯度下降 (SGD) 更新法则：

\[ \mathbf{W} \leftarrow \mathbf{W} - \eta \cdot \nabla_{\mathbf{W}} L \]

\[ \mathbf{b} \leftarrow \mathbf{b} - \eta \cdot \nabla_{\mathbf{b}} L \]

其中 $\eta$ (Eta) 是 学习率 (Learning Rate) 。

范式分类	模型类别	模型结构 (Representation)	损失函数/目标 (Loss/Objective)	常用优化算法 (Optimizer)	核心应用场景
监督学习	线性回归	\(y = \mathbf{w}^T\mathbf{x} + b\)	MSE(均方误差)	最小二乘法、SGD	连续数值预测
	逻辑回归	\(\sigma(\mathbf{w}^T\mathbf{x} + b)\)	交叉熵(基于 MLE)	梯度下降、L-BFGS	二分类概率预测
	SVM	空间超平面 (核映射)	Hinge Loss	SMO 算法	高维小样本分类
	决策树/森林	树状分裂 (if-then)	基尼系数 / 信息增益	递归启发式分裂	结构化数据分析
	梯度提升树	加法模型 (决策树累加)	自定义损失 (需二阶导)	梯度提升 (GBDT)	推荐、风控、搜索
深度学习	CNN	卷积 + 池化层	交叉熵 (Softmax)	Adam、SGD	图像、视频处理
	RNN/LSTM	循环隐藏状态\(h\)	交叉熵 (按时间步)	RMSprop、Adam	语音、序列预测
	Transformer	自注意力机制	交叉熵 (Label Smooth)	AdamW	LLM、多模态
生成模型	GANs	生成器 vs 判别器	Min-Max 对抗损失	分步 SGD / Adam	图像生成、换脸
	Diffusion	递归去噪 (U-Net)	MSE (预测噪声误差)	Adam	文生图 (DALL-E)
无监督学习	K-Means	簇中心点 (Centroids)	SSE(簇内误差平方和)	坐标下降 (EM迭代)	客户分群、数据压缩
	PCA	线性正交投影	方差最大化/ 投影误差	特征值分解 (SVD)	数据降维、特征提取
强化学习	Q-Learning	Q-Table / Q-Network	TD Error(时序差分)	贝尔曼方程更新	游戏 AI、机器人控制
	PPO/Policy	策略网络	累积期望回报	策略梯度 (PG)	自动驾驶、RLHF