Skip to content

Cheat Sheet

人工智能主要学习方法的模型结构、损失函数和常用优化算法。

范式分类 模型类别 模型结构 (Representation) 损失函数/目标 (Loss/Objective) 常用优化算法 (Optimizer) 核心应用场景
监督学习 线性回归 \(y = \mathbf{w}^T\mathbf{x} + b\) MSE(均方误差) 最小二乘法、SGD 连续数值预测
逻辑回归 \(\sigma(\mathbf{w}^T\mathbf{x} + b)\) 交叉熵(基于 MLE) 梯度下降、L-BFGS 二分类概率预测
SVM 空间超平面 (核映射) Hinge Loss SMO 算法 高维小样本分类
决策树/森林 树状分裂 (if-then) 基尼系数 / 信息增益 递归启发式分裂 结构化数据分析
梯度提升树 加法模型 (决策树累加) 自定义损失 (需二阶导) 梯度提升 (GBDT) 推荐、风控、搜索
深度学习 CNN 卷积 + 池化层 交叉熵 (Softmax) Adam、SGD 图像、视频处理
RNN/LSTM 循环隐藏状态\(h\) 交叉熵 (按时间步) RMSprop、Adam 语音、序列预测
Transformer 自注意力机制 交叉熵 (Label Smooth) AdamW LLM、多模态
生成模型 GANs 生成器 vs 判别器 Min-Max 对抗损失 分步 SGD / Adam 图像生成、换脸
Diffusion 递归去噪 (U-Net) MSE (预测噪声误差) Adam 文生图 (DALL-E)
无监督学习 K-Means 簇中心点 (Centroids) SSE(簇内误差平方和) 坐标下降 (EM迭代) 客户分群、数据压缩
PCA 线性正交投影 方差最大化/ 投影误差 特征值分解 (SVD) 数据降维、特征提取
强化学习 Q-Learning Q-Table / Q-Network TD Error(时序差分) 贝尔曼方程更新 游戏 AI、机器人控制
PPO/Policy 策略网络 累积期望回报 策略梯度 (PG) 自动驾驶、RLHF

评估与稳健性(评价指标、验证策略、偏差与方差)

范式分类 对应模型层级 核心评价指标 (Metrics) 验证策略 (Validation) 偏差/方差表现
监督学习 线性/逻辑/SVM MSE / AUC / Recall K-折交叉验证 易出现高偏差 (欠拟合)
树模型/提升树 F1-Score / Gain Hold-out (留出法) 易出现高方差 (过拟合)
深度学习 CNN/RNN/Trans. Top-K Acc / BLEU 训练/开发/测试集划分 依靠大数据量压低方差
生成模型 GANs/Diffusion FID / IS / CLIP Score 主观评价 + 统计拟合度 训练不稳定 (模式崩溃)
无监督/强化 K-Means / PPO 轮廓系数 / 累积回报 外部指标 (如标签对比) 策略震荡与环境过拟合

优化与泛化(优化手段、正则、泛化)

范式分类 典型模型 核心优化手段 正则化技术 (Regularization) 泛化提升技巧
监督学习 线性/逻辑/SVM 权重衰减 (Weight Decay) L1 / L2 正则 特征缩放 (Scaling)
树模型/提升树 学习率收缩 (Shrinkage) 树深度限制 / 叶子节点数 行/列随机采样 (Subsample)
深度学习 所有神经网络 Batch Norm / 改良优化器 Dropout / Early Stop 数据增强 (Augmentation)
生成模型 GANs/Diffusion 谱归一化 (Spectral Norm) 梯度惩罚 (GP) 指数移动平均 (EMA)
强化学习 PPO/Q-Learning 优势函数 (Advantage) 熵正则 (Entropy Bonus) 经验回放 (Replay Buffer)

特征与工程(特征工程、压缩、在线/离线一致性)

范式分类 核心考点 特征工程重点 模型压缩/加速 在线一致性挑战
经典机器 特征选择 归一化 / One-hot 特征裁剪 (降维) 离线计算特征延迟
集成学习 特征重要度 缺失值处理 / 异常值 剪枝 (Pruning) 大规模 ID 特征同步
深度学习 自动特征提取 Embedding 层设计 量化 / 蒸馏 (Distillation) 推理引擎 (TensorRT) 适配
生成模型 隐空间映射 降噪强度调节 低秩适配 (LoRA) 算力成本与生成时效
强化学习 状态空间描述 状态标准化 (State Norm) 神经网络轻量化 环境模拟器与现实差异

业务理解与闭环(场景适配、冷启动、长尾问题)

范式分类 业务核心点 样本不平衡处理 冷启动/解释性 业务闭环监控
分类/回归 准确性与稳定 SMOTE / Class Weight SHAP / LIME (可解释性) 特征漂移 (Drift) 监控
推荐/排序 转化率 (CVR) 负采样策略 (Sampling) 热门垫底 / 协同过滤 A/B Test 分流验证
NLP/生成 交互体验 焦点词加权 提示词工程 (Prompt) 幻觉检测 (Hallucination)
强化学习 长期收益 奖励函数设计 (Shaping) 探索与利用 (Epsilon) 线上策略安全熔断

基本公式

前向传播(Forward Propagation)

线性变换:

\[ \mathbf{z} = \mathbf{W}\mathbf{x} + \mathbf{b} \]

激活函数 (Softmax):

将输出转为概率分布,对于第 \(j\) 个类别:

\[ \hat{y}_j = \text{softmax}(z_j) = \frac{\exp(z_j)}{\sum_{k=1}^{q} \exp(z_k)} \]

损失函数(Loss Function)

交叉熵损失 (Cross-Entropy Loss):

假设真实标签的 One-hot 向量为 \(\mathbf{y}\),预测概率为 \(\mathbf{\hat{y}}\)

\[ L(\mathbf{y}, \mathbf{\hat{y}}) = -\sum_{j=1}^{q} y_j \log \hat{y}_j \]

注:在分类中,由于 \(y_j\) 只有一个位置是 1,其余是 0,公式实际简化为 \(L = -\log \hat{y}_{\text{correct\_class}}\)

反向传播(Backpropagation)

利用链式法则计算损失函数对参数的偏导数(梯度)。

  • 损失对输出层的梯度: 这是一个非常优雅的结果,Softmax 配合交叉熵求导后:

    $$ \frac{\partial L}{\partial \mathbf{z}} = \mathbf{\hat{y}} - \mathbf{y} $$ * 对参数的梯度:

    \[ \nabla_{\mathbf{W}} L = (\mathbf{\hat{y}} - \mathbf{y}) \mathbf{x}^T \]
    \[ \nabla_{\mathbf{b}} L = \mathbf{\hat{y}} - \mathbf{y} \]

参数更新(Optimization)

根据计算出的梯度,沿着减少误差的方向修正参数。

  • 随机梯度下降 (SGD) 更新法则:

    \[ \mathbf{W} \leftarrow \mathbf{W} - \eta \cdot \nabla_{\mathbf{W}} L \]
    \[ \mathbf{b} \leftarrow \mathbf{b} - \eta \cdot \nabla_{\mathbf{b}} L \]

    其中 \(\eta\) (Eta) 是 学习率 (Learning Rate)


评论 #