神经形态计算

一、为什么需要不同的硬件

当前人工智能的成功几乎完全建立在 GPU 之上。但 GPU 的计算范式与大脑有本质差异：

维度	GPU	人脑
功耗	数百至数千瓦	约 20 瓦
计算方式	同步、时钟驱动	异步、事件驱动
存储与计算	分离（冯诺依曼架构）	一体化
数据传输	大量数据搬运，高能耗	局部计算，极少搬运
激活方式	连续值（浮点数）	离散脉冲（spike）

大脑用 20 瓦的功耗实现了当前 AI 系统用数千瓦都难以匹敌的感知、运动控制和推理能力。这个数量级的差距表明：

问题可能不只出在算法上，硬件架构本身就是瓶颈。

神经形态计算（Neuromorphic Computing）正是为了弥合这一差距而诞生的——它试图在硬件层面模仿大脑的结构和工作方式。

二、核心设计原则

神经形态芯片与传统处理器有几个根本性的不同：

事件驱动（Event-Driven）

传统处理器按固定时钟周期运行，无论是否有有意义的计算需要执行。神经形态芯片只在接收到脉冲信号时才激活计算——没有输入就没有功耗。

这就像大脑中的神经元：大部分时间沉默，只在需要时发放脉冲。

存算一体（In-Memory Computing）

冯诺依曼架构中，数据必须在存储器和处理器之间来回搬运，这个过程消耗的能量远超计算本身——这就是冯诺依曼瓶颈（von Neumann bottleneck）。

神经形态芯片将存储（突触权重）和计算（神经元）放在一起，消除了数据搬运的开销。大脑中每个突触既存储信息（连接强度）又参与计算（信号传递），正是这种架构。

大规模并行

大脑拥有约 860 亿个神经元和约 100 万亿个突触连接，它们大部分可以同时独立工作。神经形态芯片同样追求大规模并行——数百万个神经元核心同时运行，而不是少量核心高速串行。

极低功耗

上述三个特性的共同结果是极低的功耗。事件驱动意味着空闲时几乎零能耗，存算一体消除了数据搬运能耗，大规模并行降低了单个核心的频率需求。

三、脉冲神经网络

神经形态硬件上运行的核心算法模型是脉冲神经网络（Spiking Neural Network, SNN）。

在传统人工神经网络中，神经元传递的是连续值（如 ReLU 的输出是一个浮点数）。而在 SNN 中：

神经元通过离散的脉冲（spike）进行通信——要么发放脉冲，要么沉默。信息编码在脉冲的时间模式中。

SNN 的关键特性：

时间编码：信息不仅在"是否发放"中，更在"何时发放"中。两个脉冲之间的时间间隔、多个神经元的同步发放模式都携带信息
稀疏激活：在任意时刻，只有少量神经元处于活跃状态，绝大部分沉默——这与大脑的观测一致
生物合理性：SNN 比传统 ANN 更接近真实神经元的行为

与传统 ANN 的对比

特性	传统 ANN	脉冲神经网络 SNN
信号形式	连续浮点值	离散脉冲
时间维度	通常忽略	核心编码维度
激活密度	通常密集	高度稀疏
能耗	每次前向传播全网计算	只有接收脉冲的神经元计算
硬件适配	GPU	神经形态芯片
训练方法	反向传播（成熟）	替代学习规则（发展中）

四、主要硬件平台（2025-2026）

Intel Loihi 系列

Loihi 2（2021）：128个神经形态核心，约100万个神经元，支持可编程的脉冲学习规则
Hala Point（2024）：1,152 个 Loihi 2 处理器，约 11.5 亿个神经元、1280 亿个突触，功耗仅数百瓦
Loihi 3（预计2026）：最新一代，进一步提升规模和能效

IBM NorthPole

NorthPole（2023）是数字神经形态芯片，专为推理优化，将计算和存储完全集成在芯片上，消除片外存储器访问，在推理任务中展现极高能效比。

BrainChip Akida

BrainChip Akida 面向商业部署，主打边缘计算。Akida 1.0 已商用于视觉、听觉等边缘 AI 任务；Akida 2.0 增强了 Transformer 类模型的支持。它证明了神经形态计算可以进入真实产品。

BrainScaleS-2

BrainScaleS-2 是欧洲人脑计划的产物，采用模拟计算，包含 512 个自适应积分发放神经元，以加速时间尺度运行——比生物实时快约 1000 倍，适合需要长时间仿真的研究。

五、中国的进展：瞬悉 1.0（SpikingBrain）

2025年，中国团队发布了瞬悉 1.0（SpikingBrain），这是一个基于脉冲神经网络的大规模模型。其核心特点：

高训练效率：在极少数据下实现了高性能训练
架构转换：支持将已有的 Transformer 模型转换为脉冲架构，充分利用现有的预训练权重
端到端脉冲计算：推理阶段完全使用脉冲信号，适配神经形态硬件

瞬悉 1.0 的"模型转换"思路特别值得关注。它不要求从零开始训练 SNN，而是将已有的、经过大规模预训练的 Transformer 模型"翻译"为脉冲版本。这绕开了 SNN 训练困难的瓶颈，同时保留了脉冲计算在推理阶段的能效优势。

六、性能与能效

神经形态计算的核心优势在于能效比。粗略估算：

在特定任务上，神经形态芯片的能效可以达到 GPU 的约 1000 倍。

这个数字来自多个因素的叠加：

事件驱动消除空闲功耗
存算一体消除数据搬运功耗
脉冲稀疏性减少实际计算量
低精度计算（脉冲本质上是1比特信号）

但需要注意：这个优势主要体现在推理阶段，且依赖于任务的稀疏性。对于需要密集浮点运算的任务（如大规模矩阵乘法），传统 GPU 仍然占优。

七、与预测编码和主动推理的联系

神经形态硬件与脑启发算法之间存在天然的亲和力。

预测编码的层级预测与误差传播可以自然映射到 SNN：预测信号通过反馈连接以脉冲传递，误差由前馈脉冲编码，局部学习规则（如 STDP）实现权重更新。主动推理的消息传递和信念更新同样适合神经形态架构：概率信念用群体脉冲发放率编码，在线信念更新与芯片的实时处理特性匹配。

脉冲神经网络是实现预测编码和主动推理的天然物理基底。

八、当前局限

尽管前景令人兴奋，神经形态计算仍面临严峻的现实挑战：

训练困难

SNN 的离散脉冲使得传统反向传播无法直接应用——脉冲函数的梯度在大部分点上为零。当前的替代方案包括：

替代梯度（Surrogate Gradient）：用平滑函数近似脉冲函数的梯度
ANN-to-SNN 转换：先训练传统 ANN，再转换为 SNN（瞬悉 1.0 的策略）
生物学习规则：如 STDP，但在复杂任务上效果有限

这些方法各有缺陷，目前没有一种能在性能和效率上同时匹配反向传播。

编程模型不成熟

为神经形态芯片编程与传统编程有根本不同。没有成熟的框架相当于 PyTorch 或 TensorFlow 之于 GPU。虽然 Intel 的 Lava 框架和 BrainChip 的 MetaTF 在推进，但生态系统仍然非常早期。

生态系统薄弱

与 GPU 生态（CUDA、cuDNN、PyTorch、海量预训练模型）相比，神经形态生态几乎为零。这意味着即使硬件在能效上有理论优势，开发者也缺乏工具和模型来利用它。

规模化挑战

当前最大的神经形态系统（如 Hala Point 的 11.5 亿神经元）仍远小于人脑的 860 亿神经元。如何进一步扩展规模，同时保持能效优势，是一个开放的工程问题。

九、全栈愿景

神经形态计算的终极愿景不只是一块芯片，而是一个完整的、从理论到硬件的技术栈：

理论层：自由能原理（统一的数学框架）
    ↓
算法层：预测编码 + 主动推理（脑启发算法）
    ↓
模型层：脉冲神经网络（脑启发计算模型）
    ↓
硬件层：神经形态芯片（脑启发硬件）

每一层都从大脑的工作方式中汲取灵感，且各层之间存在天然的适配性。当前主流 AI 的每一层（统计学习理论、反向传播、ANN、GPU）都已高度成熟且相互适配。脑启发全栈的每一层都还在早期阶段，但其潜在优势——能效、数据效率、在线学习、统一的感知-行动框架——恰恰是当前 AI 最缺乏的。

十、总结

神经形态计算不只是"换一种芯片"，它代表了一种从底层硬件到顶层理论的全面范式转换——从时钟驱动到事件驱动，从存算分离到存算一体，从连续激活到离散脉冲，从被动推理到主动推理。

完整逻辑链：

当前 AI 硬件（GPU）与大脑的计算方式存在根本性差异，能效差距达千倍
神经形态芯片通过事件驱动、存算一体、大规模并行来模仿大脑架构
脉冲神经网络是神经形态硬件上的核心计算模型，比传统 ANN 更接近生物神经元
主要平台包括 Intel Loihi/Hala Point、IBM NorthPole、BrainChip Akida、BrainScaleS-2 等
中国的瞬悉 1.0 探索了将 Transformer 转换为脉冲架构的实用路线
神经形态芯片在推理能效上可达 GPU 的约 1000 倍
SNN 是实现预测编码和主动推理的天然物理基底
当前的主要瓶颈在于训练方法、编程模型和生态系统的不成熟
终极愿景是一个从自由能原理到神经形态硬件的完整脑启发技术栈