深度学习前沿趋势

概述

深度学习正在向更高效、更通用、更接近人类认知的方向发展。本章探讨测试时计算、神经架构搜索、KAN、液态神经网络、神经形态计算等前沿方向。

1. 测试时计算（Test-Time Compute）

1.1 核心思想

传统范式：更多训练计算 → 更好性能。

新范式：推理时花更多计算 → 更好性能。

\[ \text{性能} \propto f(\text{训练计算}) + g(\text{推理计算}) \]

1.2 主要方法

链式思维（Chain-of-Thought）：

让模型逐步推理
显式生成中间步骤
简单提示即可提升数学/逻辑能力

Best-of-N采样：

生成N个候选答案
用验证器选择最佳
简单但有效

搜索式推理（Tree/Graph of Thought）：

构建推理树
在多条推理路径中搜索
回溯和探索

1.3 DeepSeek-R1与推理模型

o1/o3：OpenAI的推理模型，通过RL训练长链��理
DeepSeek-R1：开源推理模型，用GRPO训练
核心：让模型学会在推理时"思考更久"

1.4 推理计算的Scaling Law

\[ \text{性能} \approx f(\text{推理token数}) \]

更多推理token → 更好性��（在数学、编程、推理任务上尤为明显）

2. 神经架构搜索（NAS）

2.1 基本概念

自动搜索最优神经网络架构，替代人工设计。

搜索空间：

层类型（卷积、注意力、MLP等）
连接模式
超参数（通道数、核大小等）

2.2 主要方法

方法	描述	代表
强化学习	用RL搜索架构	NASNet
进化算法	变异+选择	AmoebaNet
可微搜索	松弛离散选择为连续优化	DARTS
超网络	训练一个包含所有子架构的超网	Once-for-All

2.3 DARTS

\[ \min_w \mathcal{L}_{\text{val}}(w^*(\alpha), \alpha) \]

\[ \text{s.t.} \quad w^*(\alpha) = \arg\min_w \mathcal{L}_{\text{train}}(w, \alpha) \]

其中 \(\alpha\) 是架构参数，通过二级优化同时学习权重和架构。

2.4 现状

LLM时代的NAS主要用于搜索高效架构（如手机端模型）
Hardware-aware NAS：考虑延迟、功耗等硬件约束
在Transformer架构内搜索最优配置（层数、头数、FFN大小等）

3. KAN（Kolmogorov-Arnold Networks）

3.1 理论基础

Kolmogorov-Arnold表示定理：

任意多变量连续函数 \(f(x_1, \ldots, x_n)\) 可以表示为：

\[ f(x_1, \ldots, x_n) = \sum_{q=0}^{2n} \Phi_q\left(\sum_{p=1}^{n} \phi_{q,p}(x_p)\right) \]

其中 \(\phi_{q,p}\) 和 \(\Phi_q\) 是单变量函数。

3.2 KAN vs MLP

特性	MLP	KAN
可学习部分	权重（边上的标量）	激活函数（边上的函数）
固定部分	激活函数	求和节点
逼近定理	通用逼近定理	Kolmogorov-Arnold定理
可解��性	低	较高
参数效率	一般	可能更好（某些任务）

3.3 KAN实现

边上的激活函数用B样条参数化：

\[ \phi(x) = \sum_{i} c_i B_i(x) \]

每条边学习一个样条函数而非一个标量权重。

3.4 当前状态

优点：在科学计算、可解释性方面有潜力
局限：大规模任务（LLM）上尚未证明优势
活跃研究：与Transformer结合、图KAN、时间序列KAN

4. 液态神经网络（Liquid Neural Networks）

4.1 核心思想

受生物神经系统（秀丽隐杆线虫）启发的连续时间神经网络。

液态时间常数网络（LTC）：

\[ \frac{dx}{dt} = -\left[\frac{1}{\tau} + f(x, I, \theta)\right] \odot x + f(x, I, \theta) \]

其中 \(\tau\) 是时间常数，\(f\) 是学习到的非线性函数。

4.2 特点

因果性：天然处理因果推理
连续时间：适应不规则采样
紧凑：仅需少量神经元（19个神经元可以学会驾驶）
可解释：结构简单，可分析

4.3 应用

自动驾驶
时间序列预测
机器人控��
天气预测

4.4 CfC（Closed-form Continuous-time）

\[ x(t) = \sigma(-f(x_0, I, \theta) \cdot (t - t_0)) \odot g(x_0, I, \theta) + [1 - \sigma(-f \cdot (t-t_0))] \odot h(x_0, I, \theta) \]

闭式解，避免ODE求解器的计算开销。

5. 神经形态计算（Neuromorphic Computing）

5.1 脉冲神经网络（SNN）

模拟生物神经元的脉冲发放机制：

LIF（Leaky Integrate-and-Fire）模型：

\[ \tau_m \frac{dV}{dt} = -(V - V_{\text{rest}}) + R \cdot I(t) \]

当 \(V > V_{\text{thresh}}\) 时发放脉冲，然后重置。

5.2 vs 人工神经网络

特性	ANN	SNN
信息编码	连续值	脉冲序列
计算方式	矩阵乘法	事件驱动
能耗	高	极低
硬件	GPU	神经形态芯片
训练	反向传播	代理梯度/STDP
时序建模	需要设计	天然时序

5.3 神经形态芯片

芯片	开发者	特点
Loihi 2	Intel	128核，100万神经元
TrueNorth	IBM	100万神经元，功耗70mW
SpiNNaker 2	曼彻斯特大学	大规模仿真
Akida	BrainChip	边缘AI

5.4 挑战与前景

训练困难：脉冲不可微，需要代理梯度
精度差距：大多数任务不如ANN
应用场景：超低功耗边缘设备、事件相机
发展方向：ANN-SNN混合、大规模SNN

6. 其他前沿方向

6.1 世界模型（World Models）

学习环境的内部模型，用于预测和规划
JEPA架构（Yann LeCun提出）
Genie 2（DeepMind）：交互式3D世界生成

6.2 检索增强生成（RAG）

将外部知识库与LLM结合
减少幻觉，更新知识
向量检索 + 重排序 + 生成

6.3 AI Agent

工具使用（函数调用）
多步推理和规划
代码执行环境
多Agent协作

6.4 具身智能

视觉-语言-动作模型（VLA）
RT-2, Octo等机器人基础模型
仿真到真实迁移

7. 总结

graph TD
    A[深度学习前沿] --> B[推理扩���]
    A --> C[架构创新]
    A --> D[计算范式]
    A --> E[应用方向]

    B --> B1[Test-Time Compute]
    B --> B2[推理模型 o1/R1]

    C --> C1[KAN]
    C --> C2[液态网络]
    C --> C3[NAS]

    D --> D1[神经形态计算]
    D --> D2[模拟计算]

    E --> E1[世界模型]
    E --> E2[AI Agent]
    E --> E3[具身智能]

未来趋势预测：

推理计算将与训练计算同等重要
混合架构将继续发展（Transformer + SSM + MoE）
神经形态计算在边缘场景有机会
AI Agent将成为主要应用形态
具身智能是长期重要方向

参考文献

Wei et al., "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models," NeurIPS 2022
Liu et al., "KAN: Kolmogorov-Arnold Networks," 2024
Hasani et al., "Liquid Time-constant Networks," AAAI 2021
Roy et al., "Towards Spike-Based Machine Intelligence with Neuromorphic Computing," Nature 2019
Liu et al., "DARTS: Differentiable Architecture Search," ICLR 2019