深度学习前沿趋势
概述
深度学习正在向更高效、更通用、更接近人类认知的方向发展。本章探讨测试时计算、神经架构搜索、KAN、液态神经网络、神经形态计算等前沿方向。
1. 测试时计算(Test-Time Compute)
1.1 核心思想
传统范式:更多训练计算 → 更好性能。
新范式:推理时花更多计算 → 更好性能。
\[
\text{性能} \propto f(\text{训练计算}) + g(\text{推理计算})
\]
1.2 主要方法
链式思维(Chain-of-Thought):
- 让模型逐步推理
- 显式生成中间步骤
- 简单提示即可提升数学/逻辑能力
Best-of-N采样:
- 生成N个候选答案
- 用验证器选择最佳
- 简单但有效
搜索式推理(Tree/Graph of Thought):
- 构建推理树
- 在多条推理路径中搜索
- 回溯和探索
1.3 DeepSeek-R1与推理模型
- o1/o3:OpenAI的推理模型,通过RL训练长链���理
- DeepSeek-R1:开源推理模型,用GRPO训练
- 核心:让模型学会在推理时"思考更久"
1.4 推理计算的Scaling Law
\[
\text{性能} \approx f(\text{推理token数})
\]
更多推理token → 更好性���(在数学、编程、推理任务上尤为明显)
2. 神经架构搜索(NAS)
2.1 基本概念
自动搜索最优神经网络架构,替代人工设计。
搜索空间:
- 层类型(卷积、注意力、MLP等)
- 连接模式
- 超参数(通道数、核大小等)
2.2 主要方法
| 方法 | 描述 | 代表 |
|---|---|---|
| 强化学习 | 用RL搜索架构 | NASNet |
| 进化算法 | 变异+选择 | AmoebaNet |
| 可微搜索 | 松弛离散选择为连续优化 | DARTS |
| 超网络 | 训练一个包含所有子架构的超网 | Once-for-All |
2.3 DARTS
\[
\min_w \mathcal{L}_{\text{val}}(w^*(\alpha), \alpha)
\]
\[
\text{s.t.} \quad w^*(\alpha) = \arg\min_w \mathcal{L}_{\text{train}}(w, \alpha)
\]
其中 \(\alpha\) 是架构参数,通过二级优化同时学习权重和架构。
2.4 现状
- LLM时代的NAS主要用于搜索高效架构(如手机端模型)
- Hardware-aware NAS:考虑延迟、功耗等硬件约束
- 在Transformer架构内搜索最优配置(层数、头数、FFN大小等)
3. KAN(Kolmogorov-Arnold Networks)
3.1 理论基础
Kolmogorov-Arnold表示定理:
任意多变量连续函数 \(f(x_1, \ldots, x_n)\) 可以表示为:
\[
f(x_1, \ldots, x_n) = \sum_{q=0}^{2n} \Phi_q\left(\sum_{p=1}^{n} \phi_{q,p}(x_p)\right)
\]
其中 \(\phi_{q,p}\) 和 \(\Phi_q\) 是单变量函数。
3.2 KAN vs MLP
| 特性 | MLP | KAN |
|---|---|---|
| 可学习部分 | 权重(边上的标量) | 激活函数(边上的函数) |
| 固定部分 | 激活函数 | 求和节点 |
| 逼近定理 | 通用逼近定理 | Kolmogorov-Arnold定理 |
| 可解��性 | 低 | 较高 |
| 参数效率 | 一般 | 可能更好(某些任务) |
3.3 KAN实现
边上的激活函数用B样条参数化:
\[
\phi(x) = \sum_{i} c_i B_i(x)
\]
每条边学习一个样条函数而非一个标量权重。
3.4 当前状态
- 优点:在科学计算、可解释性方面有潜力
- 局限:大规模任务(LLM)上尚未证明优势
- 活跃研究:与Transformer结合、图KAN、时间序列KAN
4. 液态神经网络(Liquid Neural Networks)
4.1 核心思想
受生物神经系统(秀丽隐杆线虫)启发的连续时间神经网络。
液态时间常数网络(LTC):
\[
\frac{dx}{dt} = -\left[\frac{1}{\tau} + f(x, I, \theta)\right] \odot x + f(x, I, \theta)
\]
其中 \(\tau\) 是时间常数,\(f\) 是学习到的非线性函数。
4.2 特点
- 因果性:天然处理因果推理
- 连续时间:适应不规则采样
- 紧凑:仅需少量神经元(19个神经元可以学会驾驶)
- 可解释:结构简单,可分析
4.3 应用
- 自动驾驶
- 时间序列预测
- 机器人控��
- 天气预测
4.4 CfC(Closed-form Continuous-time)
\[
x(t) = \sigma(-f(x_0, I, \theta) \cdot (t - t_0)) \odot g(x_0, I, \theta) + [1 - \sigma(-f \cdot (t-t_0))] \odot h(x_0, I, \theta)
\]
闭式解,避免ODE求解器的计算开销。
5. 神经形态计算(Neuromorphic Computing)
5.1 脉冲神经网络(SNN)
模拟生物神经元的脉冲发放机制:
LIF(Leaky Integrate-and-Fire)模型:
\[
\tau_m \frac{dV}{dt} = -(V - V_{\text{rest}}) + R \cdot I(t)
\]
当 \(V > V_{\text{thresh}}\) 时发放脉冲,然后重置。
5.2 vs 人工神经网络
| 特性 | ANN | SNN |
|---|---|---|
| 信息编码 | 连续值 | 脉冲序列 |
| 计算方式 | 矩阵乘法 | 事件驱动 |
| 能耗 | 高 | 极低 |
| 硬件 | GPU | 神经形态芯片 |
| 训练 | 反向传播 | 代理梯度/STDP |
| 时序建模 | 需要设计 | 天然时序 |
5.3 神经形态芯片
| 芯片 | 开发者 | 特点 |
|---|---|---|
| Loihi 2 | Intel | 128核,100万神经元 |
| TrueNorth | IBM | 100万神经元,功耗70mW |
| SpiNNaker 2 | 曼彻斯特大学 | 大规模仿真 |
| Akida | BrainChip | 边缘AI |
5.4 挑战与前景
- 训练困难:脉冲不可微,需要代理梯度
- 精度差距:大多数任务不如ANN
- 应用场景:超低功耗边缘设备、事件相机
- 发展方向:ANN-SNN混合、大规模SNN
6. 其他前沿方向
6.1 世界模型(World Models)
- 学习环境的内部模型,用于预测和规划
- JEPA架构(Yann LeCun提出)
- Genie 2(DeepMind):交互式3D世界生成
6.2 检索增强生成(RAG)
- 将外部知识库与LLM结合
- 减少幻觉,更新知识
- 向量检索 + 重排序 + 生成
6.3 AI Agent
- 工具使用(函数调用)
- 多步推理和规划
- 代码执行环境
- 多Agent协作
6.4 具身智能
- 视觉-语言-动作模型(VLA)
- RT-2, Octo等机器人基础模型
- 仿真到真实迁移
7. 总结
graph TD
A[深度学习前沿] --> B[推理扩���]
A --> C[架构创新]
A --> D[计算范式]
A --> E[应用方向]
B --> B1[Test-Time Compute]
B --> B2[推理模型 o1/R1]
C --> C1[KAN]
C --> C2[液态网络]
C --> C3[NAS]
D --> D1[神经形态计算]
D --> D2[模拟计算]
E --> E1[世界模型]
E --> E2[AI Agent]
E --> E3[具身智能]
未来趋势预测:
- 推理计算将与训练计算同等重要
- 混合架构将继续发展(Transformer + SSM + MoE)
- 神经形态计算在边缘场景有机会
- AI Agent将成为主要应用形态
- 具身智能是长期重要方向
参考文献
- Wei et al., "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models," NeurIPS 2022
- Liu et al., "KAN: Kolmogorov-Arnold Networks," 2024
- Hasani et al., "Liquid Time-constant Networks," AAAI 2021
- Roy et al., "Towards Spike-Based Machine Intelligence with Neuromorphic Computing," Nature 2019
- Liu et al., "DARTS: Differentiable Architecture Search," ICLR 2019