Cheat Sheet
人工智能主要学习方法的模型结构、损失函数和常用优化算法。
| 范式分类 | 模型类别 | 模型结构 (Representation) | 损失函数/目标 (Loss/Objective) | 常用优化算法 (Optimizer) | 核心应用场景 |
|---|---|---|---|---|---|
| 监督学习 | 线性回归 | \(y = \mathbf{w}^T\mathbf{x} + b\) | MSE(均方误差) | 最小二乘法、SGD | 连续数值预测 |
| 逻辑回归 | \(\sigma(\mathbf{w}^T\mathbf{x} + b)\) | 交叉熵(基于 MLE) | 梯度下降、L-BFGS | 二分类概率预测 | |
| SVM | 空间超平面 (核映射) | Hinge Loss | SMO 算法 | 高维小样本分类 | |
| 决策树/森林 | 树状分裂 (if-then) | 基尼系数 / 信息增益 | 递归启发式分裂 | 结构化数据分析 | |
| 梯度提升树 | 加法模型 (决策树累加) | 自定义损失 (需二阶导) | 梯度提升 (GBDT) | 推荐、风控、搜索 | |
| 深度学习 | CNN | 卷积 + 池化层 | 交叉熵 (Softmax) | Adam、SGD | 图像、视频处理 |
| RNN/LSTM | 循环隐藏状态\(h\) | 交叉熵 (按时间步) | RMSprop、Adam | 语音、序列预测 | |
| Transformer | 自注意力机制 | 交叉熵 (Label Smooth) | AdamW | LLM、多模态 | |
| 生成模型 | GANs | 生成器 vs 判别器 | Min-Max 对抗损失 | 分步 SGD / Adam | 图像生成、换脸 |
| Diffusion | 递归去噪 (U-Net) | MSE (预测噪声误差) | Adam | 文生图 (DALL-E) | |
| 无监督学习 | K-Means | 簇中心点 (Centroids) | SSE(簇内误差平方和) | 坐标下降 (EM迭代) | 客户分群、数据压缩 |
| PCA | 线性正交投影 | 方差最大化/ 投影误差 | 特征值分解 (SVD) | 数据降维、特征提取 | |
| 强化学习 | Q-Learning | Q-Table / Q-Network | TD Error(时序差分) | 贝尔曼方程更新 | 游戏 AI、机器人控制 |
| PPO/Policy | 策略网络 | 累积期望回报 | 策略梯度 (PG) | 自动驾驶、RLHF |
评估与稳健性(评价指标、验证策略、偏差与方差)
| 范式分类 | 对应模型层级 | 核心评价指标 (Metrics) | 验证策略 (Validation) | 偏差/方差表现 |
|---|---|---|---|---|
| 监督学习 | 线性/逻辑/SVM | MSE / AUC / Recall | K-折交叉验证 | 易出现高偏差 (欠拟合) |
| 树模型/提升树 | F1-Score / Gain | Hold-out (留出法) | 易出现高方差 (过拟合) | |
| 深度学习 | CNN/RNN/Trans. | Top-K Acc / BLEU | 训练/开发/测试集划分 | 依靠大数据量压低方差 |
| 生成模型 | GANs/Diffusion | FID / IS / CLIP Score | 主观评价 + 统计拟合度 | 训练不稳定 (模式崩溃) |
| 无监督/强化 | K-Means / PPO | 轮廓系数 / 累积回报 | 外部指标 (如标签对比) | 策略震荡与环境过拟合 |
优化与泛化(优化手段、正则、泛化)
| 范式分类 | 典型模型 | 核心优化手段 | 正则化技术 (Regularization) | 泛化提升技巧 |
|---|---|---|---|---|
| 监督学习 | 线性/逻辑/SVM | 权重衰减 (Weight Decay) | L1 / L2 正则 | 特征缩放 (Scaling) |
| 树模型/提升树 | 学习率收缩 (Shrinkage) | 树深度限制 / 叶子节点数 | 行/列随机采样 (Subsample) | |
| 深度学习 | 所有神经网络 | Batch Norm / 改良优化器 | Dropout / Early Stop | 数据增强 (Augmentation) |
| 生成模型 | GANs/Diffusion | 谱归一化 (Spectral Norm) | 梯度惩罚 (GP) | 指数移动平均 (EMA) |
| 强化学习 | PPO/Q-Learning | 优势函数 (Advantage) | 熵正则 (Entropy Bonus) | 经验回放 (Replay Buffer) |
特征与工程(特征工程、压缩、在线/离线一致性)
| 范式分类 | 核心考点 | 特征工程重点 | 模型压缩/加速 | 在线一致性挑战 |
|---|---|---|---|---|
| 经典机器 | 特征选择 | 归一化 / One-hot | 特征裁剪 (降维) | 离线计算特征延迟 |
| 集成学习 | 特征重要度 | 缺失值处理 / 异常值 | 剪枝 (Pruning) | 大规模 ID 特征同步 |
| 深度学习 | 自动特征提取 | Embedding 层设计 | 量化 / 蒸馏 (Distillation) | 推理引擎 (TensorRT) 适配 |
| 生成模型 | 隐空间映射 | 降噪强度调节 | 低秩适配 (LoRA) | 算力成本与生成时效 |
| 强化学习 | 状态空间描述 | 状态标准化 (State Norm) | 神经网络轻量化 | 环境模拟器与现实差异 |
业务理解与闭环(场景适配、冷启动、长尾问题)
| 范式分类 | 业务核心点 | 样本不平衡处理 | 冷启动/解释性 | 业务闭环监控 |
|---|---|---|---|---|
| 分类/回归 | 准确性与稳定 | SMOTE / Class Weight | SHAP / LIME (可解释性) | 特征漂移 (Drift) 监控 |
| 推荐/排序 | 转化率 (CVR) | 负采样策略 (Sampling) | 热门垫底 / 协同过滤 | A/B Test 分流验证 |
| NLP/生成 | 交互体验 | 焦点词加权 | 提示词工程 (Prompt) | 幻觉检测 (Hallucination) |
| 强化学习 | 长期收益 | 奖励函数设计 (Shaping) | 探索与利用 (Epsilon) | 线上策略安全熔断 |
。
基本公式
前向传播(Forward Propagation)
线性变换:
\[
\mathbf{z} = \mathbf{W}\mathbf{x} + \mathbf{b}
\]
激活函数 (Softmax):
将输出转为概率分布,对于第 \(j\) 个类别:
\[
\hat{y}_j = \text{softmax}(z_j) = \frac{\exp(z_j)}{\sum_{k=1}^{q} \exp(z_k)}
\]
损失函数(Loss Function)
交叉熵损失 (Cross-Entropy Loss):
假设真实标签的 One-hot 向量为 \(\mathbf{y}\),预测概率为 \(\mathbf{\hat{y}}\):
\[
L(\mathbf{y}, \mathbf{\hat{y}}) = -\sum_{j=1}^{q} y_j \log \hat{y}_j
\]
注:在分类中,由于 \(y_j\) 只有一个位置是 1,其余是 0,公式实际简化为 \(L = -\log \hat{y}_{\text{correct\_class}}\)。
反向传播(Backpropagation)
利用链式法则计算损失函数对参数的偏导数(梯度)。
-
损失对输出层的梯度: 这是一个非常优雅的结果,Softmax 配合交叉熵求导后:
$$ \frac{\partial L}{\partial \mathbf{z}} = \mathbf{\hat{y}} - \mathbf{y} $$ * 对参数的梯度:
\[ \nabla_{\mathbf{W}} L = (\mathbf{\hat{y}} - \mathbf{y}) \mathbf{x}^T \]\[ \nabla_{\mathbf{b}} L = \mathbf{\hat{y}} - \mathbf{y} \]
参数更新(Optimization)
根据计算出的梯度,沿着减少误差的方向修正参数。
-
随机梯度下降 (SGD) 更新法则:
\[ \mathbf{W} \leftarrow \mathbf{W} - \eta \cdot \nabla_{\mathbf{W}} L \]\[ \mathbf{b} \leftarrow \mathbf{b} - \eta \cdot \nabla_{\mathbf{b}} L \]其中 \(\eta\) (Eta) 是 学习率 (Learning Rate) 。