神经形态计算
一、为什么需要不同的硬件
当前人工智能的成功几乎完全建立在 GPU 之上。但 GPU 的计算范式与大脑有本质差异:
| 维度 | GPU | 人脑 |
|---|---|---|
| 功耗 | 数百至数千瓦 | 约 20 瓦 |
| 计算方式 | 同步、时钟驱动 | 异步、事件驱动 |
| 存储与计算 | 分离(冯诺依曼架构) | 一体化 |
| 数据传输 | 大量数据搬运,高能耗 | 局部计算,极少搬运 |
| 激活方式 | 连续值(浮点数) | 离散脉冲(spike) |
大脑用 20 瓦的功耗实现了当前 AI 系统用数千瓦都难以匹敌的感知、运动控制和推理能力。这个数量级的差距表明:
问题可能不只出在算法上,硬件架构本身就是瓶颈。
神经形态计算(Neuromorphic Computing)正是为了弥合这一差距而诞生的——它试图在硬件层面模仿大脑的结构和工作方式。
二、核心设计原则
神经形态芯片与传统处理器有几个根本性的不同:
事件驱动(Event-Driven)
传统处理器按固定时钟周期运行,无论是否有有意义的计算需要执行。神经形态芯片只在接收到脉冲信号时才激活计算——没有输入就没有功耗。
这就像大脑中的神经元:大部分时间沉默,只在需要时发放脉冲。
存算一体(In-Memory Computing)
冯诺依曼架构中,数据必须在存储器和处理器之间来回搬运,这个过程消耗的能量远超计算本身——这就是冯诺依曼瓶颈(von Neumann bottleneck)。
神经形态芯片将存储(突触权重)和计算(神经元)放在一起,消除了数据搬运的开销。大脑中每个突触既存储信息(连接强度)又参与计算(信号传递),正是这种架构。
大规模并行
大脑拥有约 860 亿个神经元和约 100 万亿个突触连接,它们大部分可以同时独立工作。神经形态芯片同样追求大规模并行——数百万个神经元核心同时运行,而不是少量核心高速串行。
极低功耗
上述三个特性的共同结果是极低的功耗。事件驱动意味着空闲时几乎零能耗,存算一体消除了数据搬运能耗,大规模并行降低了单个核心的频率需求。
三、脉冲神经网络
神经形态硬件上运行的核心算法模型是脉冲神经网络(Spiking Neural Network, SNN)。
在传统人工神经网络中,神经元传递的是连续值(如 ReLU 的输出是一个浮点数)。而在 SNN 中:
神经元通过离散的脉冲(spike)进行通信——要么发放脉冲,要么沉默。信息编码在脉冲的时间模式中。
SNN 的关键特性:
- 时间编码:信息不仅在"是否发放"中,更在"何时发放"中。两个脉冲之间的时间间隔、多个神经元的同步发放模式都携带信息
- 稀疏激活:在任意时刻,只有少量神经元处于活跃状态,绝大部分沉默——这与大脑的观测一致
- 生物合理性:SNN 比传统 ANN 更接近真实神经元的行为
与传统 ANN 的对比
| 特性 | 传统 ANN | 脉冲神经网络 SNN |
|---|---|---|
| 信号形式 | 连续浮点值 | 离散脉冲 |
| 时间维度 | 通常忽略 | 核心编码维度 |
| 激活密度 | 通常密集 | 高度稀疏 |
| 能耗 | 每次前向传播全网计算 | 只有接收脉冲的神经元计算 |
| 硬件适配 | GPU | 神经形态芯片 |
| 训练方法 | 反向传播(成熟) | 替代学习规则(发展中) |
四、主要硬件平台(2025-2026)
Intel Loihi 系列
- Loihi 2(2021):128个神经形态核心,约100万个神经元,支持可编程的脉冲学习规则
- Hala Point(2024):1,152 个 Loihi 2 处理器,约 11.5 亿个神经元、1280 亿个突触,功耗仅数百瓦
- Loihi 3(预计2026):最新一代,进一步提升规模和能效
IBM NorthPole
NorthPole(2023)是数字神经形态芯片,专为推理优化,将计算和存储完全集成在芯片上,消除片外存储器访问,在推理任务中展现极高能效比。
BrainChip Akida
BrainChip Akida 面向商业部署,主打边缘计算。Akida 1.0 已商用于视觉、听觉等边缘 AI 任务;Akida 2.0 增强了 Transformer 类模型的支持。它证明了神经形态计算可以进入真实产品。
BrainScaleS-2
BrainScaleS-2 是欧洲人脑计划的产物,采用模拟计算,包含 512 个自适应积分发放神经元,以加速时间尺度运行——比生物实时快约 1000 倍,适合需要长时间仿真的研究。
五、中国的进展:瞬悉 1.0(SpikingBrain)
2025年,中国团队发布了瞬悉 1.0(SpikingBrain),这是一个基于脉冲神经网络的大规模模型。其核心特点:
- 高训练效率:在极少数据下实现了高性能训练
- 架构转换:支持将已有的 Transformer 模型转换为脉冲架构,充分利用现有的预训练权重
- 端到端脉冲计算:推理阶段完全使用脉冲信号,适配神经形态硬件
瞬悉 1.0 的"模型转换"思路特别值得关注。它不要求从零开始训练 SNN,而是将已有的、经过大规模预训练的 Transformer 模型"翻译"为脉冲版本。这绕开了 SNN 训练困难的瓶颈,同时保留了脉冲计算在推理阶段的能效优势。
六、性能与能效
神经形态计算的核心优势在于能效比。粗略估算:
在特定任务上,神经形态芯片的能效可以达到 GPU 的约 1000 倍。
这个数字来自多个因素的叠加:
- 事件驱动消除空闲功耗
- 存算一体消除数据搬运功耗
- 脉冲稀疏性减少实际计算量
- 低精度计算(脉冲本质上是1比特信号)
但需要注意:这个优势主要体现在推理阶段,且依赖于任务的稀疏性。对于需要密集浮点运算的任务(如大规模矩阵乘法),传统 GPU 仍然占优。
七、与预测编码和主动推理的联系
神经形态硬件与脑启发算法之间存在天然的亲和力。
预测编码的层级预测与误差传播可以自然映射到 SNN:预测信号通过反馈连接以脉冲传递,误差由前馈脉冲编码,局部学习规则(如 STDP)实现权重更新。主动推理的消息传递和信念更新同样适合神经形态架构:概率信念用群体脉冲发放率编码,在线信念更新与芯片的实时处理特性匹配。
脉冲神经网络是实现预测编码和主动推理的天然物理基底。
八、当前局限
尽管前景令人兴奋,神经形态计算仍面临严峻的现实挑战:
训练困难
SNN 的离散脉冲使得传统反向传播无法直接应用——脉冲函数的梯度在大部分点上为零。当前的替代方案包括:
- 替代梯度(Surrogate Gradient):用平滑函数近似脉冲函数的梯度
- ANN-to-SNN 转换:先训练传统 ANN,再转换为 SNN(瞬悉 1.0 的策略)
- 生物学习规则:如 STDP,但在复杂任务上效果有限
这些方法各有缺陷,目前没有一种能在性能和效率上同时匹配反向传播。
编程模型不成熟
为神经形态芯片编程与传统编程有根本不同。没有成熟的框架相当于 PyTorch 或 TensorFlow 之于 GPU。虽然 Intel 的 Lava 框架和 BrainChip 的 MetaTF 在推进,但生态系统仍然非常早期。
生态系统薄弱
与 GPU 生态(CUDA、cuDNN、PyTorch、海量预训练模型)相比,神经形态生态几乎为零。这意味着即使硬件在能效上有理论优势,开发者也缺乏工具和模型来利用它。
规模化挑战
当前最大的神经形态系统(如 Hala Point 的 11.5 亿神经元)仍远小于人脑的 860 亿神经元。如何进一步扩展规模,同时保持能效优势,是一个开放的工程问题。
九、全栈愿景
神经形态计算的终极愿景不只是一块芯片,而是一个完整的、从理论到硬件的技术栈:
理论层:自由能原理(统一的数学框架)
↓
算法层:预测编码 + 主动推理(脑启发算法)
↓
模型层:脉冲神经网络(脑启发计算模型)
↓
硬件层:神经形态芯片(脑启发硬件)
每一层都从大脑的工作方式中汲取灵感,且各层之间存在天然的适配性。当前主流 AI 的每一层(统计学习理论、反向传播、ANN、GPU)都已高度成熟且相互适配。脑启发全栈的每一层都还在早期阶段,但其潜在优势——能效、数据效率、在线学习、统一的感知-行动框架——恰恰是当前 AI 最缺乏的。
十、总结
神经形态计算不只是"换一种芯片",它代表了一种从底层硬件到顶层理论的全面范式转换——从时钟驱动到事件驱动,从存算分离到存算一体,从连续激活到离散脉冲,从被动推理到主动推理。
完整逻辑链:
- 当前 AI 硬件(GPU)与大脑的计算方式存在根本性差异,能效差距达千倍
- 神经形态芯片通过事件驱动、存算一体、大规模并行来模仿大脑架构
- 脉冲神经网络是神经形态硬件上的核心计算模型,比传统 ANN 更接近生物神经元
- 主要平台包括 Intel Loihi/Hala Point、IBM NorthPole、BrainChip Akida、BrainScaleS-2 等
- 中国的瞬悉 1.0 探索了将 Transformer 转换为脉冲架构的实用路线
- 神经形态芯片在推理能效上可达 GPU 的约 1000 倍
- SNN 是实现预测编码和主动推理的天然物理基底
- 当前的主要瓶颈在于训练方法、编程模型和生态系统的不成熟
- 终极愿景是一个从自由能原理到神经形态硬件的完整脑启发技术栈