跳转至

深度学习前沿趋势

概述

深度学习正在向更高效、更通用、更接近人类认知的方向发展。本章探讨测试时计算、神经架构搜索、KAN、液态神经网络、神经形态计算等前沿方向。


1. 测试时计算(Test-Time Compute)

1.1 核心思想

传统范式:更多训练计算 → 更好性能。

新范式:推理时花更多计算 → 更好性能

\[ \text{性能} \propto f(\text{训练计算}) + g(\text{推理计算}) \]

1.2 主要方法

链式思维(Chain-of-Thought)

  • 让模型逐步推理
  • 显式生成中间步骤
  • 简单提示即可提升数学/逻辑能力

Best-of-N采样

  • 生成N个候选答案
  • 用验证器选择最佳
  • 简单但有效

搜索式推理(Tree/Graph of Thought)

  • 构建推理树
  • 在多条推理路径中搜索
  • 回溯和探索

1.3 DeepSeek-R1与推理模型

  • o1/o3:OpenAI的推理模型,通过RL训练长链���理
  • DeepSeek-R1:开源推理模型,用GRPO训练
  • 核心:让模型学会在推理时"思考更久"

1.4 推理计算的Scaling Law

\[ \text{性能} \approx f(\text{推理token数}) \]

更多推理token → 更好性���(在数学、编程、推理任务上尤为明显)


2. 神经架构搜索(NAS)

2.1 基本概念

自动搜索最优神经网络架构,替代人工设计。

搜索空间

  • 层类型(卷积、注意力、MLP等)
  • 连接模式
  • 超参数(通道数、核大小等)

2.2 主要方法

方法 描述 代表
强化学习 用RL搜索架构 NASNet
进化算法 变异+选择 AmoebaNet
可微搜索 松弛离散选择为连续优化 DARTS
超网络 训练一个包含所有子架构的超网 Once-for-All

2.3 DARTS

\[ \min_w \mathcal{L}_{\text{val}}(w^*(\alpha), \alpha) \]
\[ \text{s.t.} \quad w^*(\alpha) = \arg\min_w \mathcal{L}_{\text{train}}(w, \alpha) \]

其中 \(\alpha\) 是架构参数,通过二级优化同时学习权重和架构。

2.4 现状

  • LLM时代的NAS主要用于搜索高效架构(如手机端模型)
  • Hardware-aware NAS:考虑延迟、功耗等硬件约束
  • 在Transformer架构内搜索最优配置(层数、头数、FFN大小等)

3. KAN(Kolmogorov-Arnold Networks)

3.1 理论基础

Kolmogorov-Arnold表示定理

任意多变量连续函数 \(f(x_1, \ldots, x_n)\) 可以表示为:

\[ f(x_1, \ldots, x_n) = \sum_{q=0}^{2n} \Phi_q\left(\sum_{p=1}^{n} \phi_{q,p}(x_p)\right) \]

其中 \(\phi_{q,p}\)\(\Phi_q\) 是单变量函数。

3.2 KAN vs MLP

特性 MLP KAN
可学习部分 权重(边上的标量) 激活函数(边上的函数)
固定部分 激活函数 求和节点
逼近定理 通用逼近定理 Kolmogorov-Arnold定理
可解��性 较高
参数效率 一般 可能更好(某些任务)

3.3 KAN实现

边上的激活函数用B样条参数化:

\[ \phi(x) = \sum_{i} c_i B_i(x) \]

每条边学习一个样条函数而非一个标量权重。

3.4 当前状态

  • 优点:在科学计算、可解释性方面有潜力
  • 局限:大规模任务(LLM)上尚未证明优势
  • 活跃研究:与Transformer结合、图KAN、时间序列KAN

4. 液态神经网络(Liquid Neural Networks)

4.1 核心思想

受生物神经系统(秀丽隐杆线虫)启发的连续时间神经网络。

液态时间常数网络(LTC)

\[ \frac{dx}{dt} = -\left[\frac{1}{\tau} + f(x, I, \theta)\right] \odot x + f(x, I, \theta) \]

其中 \(\tau\) 是时间常数,\(f\) 是学习到的非线性函数。

4.2 特点

  • 因果性:天然处理因果推理
  • 连续时间:适应不规则采样
  • 紧凑:仅需少量神经元(19个神经元可以学会驾驶)
  • 可解释:结构简单,可分析

4.3 应用

  • 自动驾驶
  • 时间序列预测
  • 机器人控��
  • 天气预测

4.4 CfC(Closed-form Continuous-time)

\[ x(t) = \sigma(-f(x_0, I, \theta) \cdot (t - t_0)) \odot g(x_0, I, \theta) + [1 - \sigma(-f \cdot (t-t_0))] \odot h(x_0, I, \theta) \]

闭式解,避免ODE求解器的计算开销。


5. 神经形态计算(Neuromorphic Computing)

5.1 脉冲神经网络(SNN)

模拟生物神经元的脉冲发放机制:

LIF(Leaky Integrate-and-Fire)模型

\[ \tau_m \frac{dV}{dt} = -(V - V_{\text{rest}}) + R \cdot I(t) \]

\(V > V_{\text{thresh}}\) 时发放脉冲,然后重置。

5.2 vs 人工神经网络

特性 ANN SNN
信息编码 连续值 脉冲序列
计算方式 矩阵乘法 事件驱动
能耗 极低
硬件 GPU 神经形态芯片
训练 反向传播 代理梯度/STDP
时序建模 需要设计 天然时序

5.3 神经形态芯片

芯片 开发者 特点
Loihi 2 Intel 128核,100万神经元
TrueNorth IBM 100万神经元,功耗70mW
SpiNNaker 2 曼彻斯特大学 大规模仿真
Akida BrainChip 边缘AI

5.4 挑战与前景

  • 训练困难:脉冲不可微,需要代理梯度
  • 精度差距:大多数任务不如ANN
  • 应用场景:超低功耗边缘设备、事件相机
  • 发展方向:ANN-SNN混合、大规模SNN

6. 其他前沿方向

6.1 世界模型(World Models)

  • 学习环境的内部模型,用于预测和规划
  • JEPA架构(Yann LeCun提出)
  • Genie 2(DeepMind):交互式3D世界生成

6.2 检索增强生成(RAG)

  • 将外部知识库与LLM结合
  • 减少幻觉,更新知识
  • 向量检索 + 重排序 + 生成

6.3 AI Agent

  • 工具使用(函数调用)
  • 多步推理和规划
  • 代码执行环境
  • 多Agent协作

6.4 具身智能

  • 视觉-语言-动作模型(VLA)
  • RT-2, Octo等机器人基础模型
  • 仿真到真实迁移

7. 总结

graph TD
    A[深度学习前沿] --> B[推理扩���]
    A --> C[架构创新]
    A --> D[计算范式]
    A --> E[应用方向]

    B --> B1[Test-Time Compute]
    B --> B2[推理模型 o1/R1]

    C --> C1[KAN]
    C --> C2[液态网络]
    C --> C3[NAS]

    D --> D1[神经形态计算]
    D --> D2[模拟计算]

    E --> E1[世界模型]
    E --> E2[AI Agent]
    E --> E3[具身智能]

未来趋势预测

  1. 推理计算将与训练计算同等重要
  2. 混合架构将继续发展(Transformer + SSM + MoE)
  3. 神经形态计算在边缘场景有机会
  4. AI Agent将成为主要应用形态
  5. 具身智能是长期重要方向

参考文献

  • Wei et al., "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models," NeurIPS 2022
  • Liu et al., "KAN: Kolmogorov-Arnold Networks," 2024
  • Hasani et al., "Liquid Time-constant Networks," AAAI 2021
  • Roy et al., "Towards Spike-Based Machine Intelligence with Neuromorphic Computing," Nature 2019
  • Liu et al., "DARTS: Differentiable Architecture Search," ICLR 2019

评论 #