NDT 系列与 Transformer

NDT（Neural Data Transformer） 系列由 Joel Ye 等人在 2021–2024 年间推出，把 Transformer 架构引入神经信号解码，并在 NDT3（2024 NeurIPS）完成了神经基础模型的关键跨越——在 200+ 数据集、500+ 小时数据上预训练的通用 BCI 基础模型。

一、NDT1：BERT for Neurons

Ye & Pandarinath (2021, NeurIPS) 提出 NDT1：

设置

输入：spike rate 时间序列 (T, N) — T 时间步、N 神经元
架构：标准 Transformer encoder
任务：masked modeling——遮住随机时间步，重构

与 LFADS 比较

	LFADS	NDT1
结构	VAE + GRU	Transformer
训练	重构 ELBO	Masked reconstruction
推断	有限潜维度	整个序列
性能（NLB）	好	更好

NDT1 在 Neural Latents Benchmark 上超过 LFADS——Transformer 比 RNN-VAE 更适合神经数据。

二、NDT2：跨 session 对齐

Ye et al. (2023, BioRxiv → ICLR 2024) 的 NDT2 解决跨 session 通道不对齐问题：

问题

同一 Utah 阵列在不同 session 记录的"神经元 #42"可能不是同一个（电极漂移、神经元丢失）。直接模型会把 session 认成不同 dataset。

解决方案

每个通道一个 embedding：类似 BERT 的 token embedding
Session embedding：给每个 session 加一个可学习向量
Context learning：少量数据就能快速对齐

意义

NDT2 证明：一个模型可以跨 session、跨被试使用——这是神经基础模型的关键前提。

三、NDT3：神经基础模型

Azabou & Ye et al. (2024, NeurIPS) 的 NDT3 是里程碑：

规模

200+ 数据集（BrainGate、Pitt、Shenoy 实验室等）
500+ 小时 电生理数据
100+ 被试（猴子、人类）
1B+ 参数 Transformer

架构创新

PerceiverIO 类 cross-attention，固定大小 latent
单位分词（unit tokenization）：每个 unit 一个 query，自然支持变长输入
Rotary position embedding 适应时间轴

预训练 + 微调

预训练：masked autoencoding
微调：少量标注数据适配特定任务（手势、语音、光标）
零样本：甚至新被试无需微调即可合理解码

性能

新被试 10 分钟数据达到传统方法数小时的性能
跨任务零样本：手势模型直接迁移光标任务
在 Neural Latents 和 FALCON 基准上 SOTA

NDT3 是 BCI 的 GPT-3 moment。

四、Transformer 在 BCI 上的优势

为什么 Transformer 适合神经数据？

变长序列：spike 时间 + 神经元数量都可变
长距离依赖：决策、准备期可跨 500+ ms
多模态融合：spike + LFP + 行为变量都可 tokenize
跨任务复用：预训练特征在多任务通用
规模效应：更多数据 → 更好性能，遵循 scaling law

五、其他神经 Transformer

BrainBERT (Wang 2023)

ECoG 版 BERT：masked spectrogram prediction，学到跨任务有用的 ECoG 表征。

Neuroformer (Antoniades 2023)

多模态（vision + neural）自回归 Transformer，预测神经活动 + 动物行为。

POYO (Azabou 2023 NeurIPS)

"跨数据集 + 跨被试" 统一架构——见神经基础模型_POYO。

MAE for EEG

EEGPT（Pu 2024）：Masked Autoencoder 风格的 EEG 预训练。

六、神经 Transformer vs 语言 Transformer

方面	语言	神经
Token	word/subword	spike / bin / channel
词表	固定（50K）	无限（连续值）
上下文	1K–1M	0.5–10 s
数据规模	TB	GB（增长中）
跨分布	自然成立	需要通道对齐

差别最大的是：语言有标签（下一个 token 就是标签），神经数据需要行为/任务标签或自监督设计。

七、架构设计的关键选择

NDT3 及后续模型的设计教训：

Tokenization

Per-unit：每个神经元一个 token（可变长度）
Per-bin：每个时间 bin 一个 token（固定窗口）
Hybrid：两维混合

Per-unit 更灵活但增加序列长度；多数现代模型用 hybrid。

Positional Encoding

Absolute：适合固定任务
RoPE (Rotary)：适合变长、跨任务
Learnable per-session：补偿 session 差异

Attention

Standard：二次复杂度，适合短序列
Linear attention / Flash：长序列
Cross-attention (Perceiver)：固定 latent 大小，扩展性好

八、在线部署

Transformer 延迟挑战：

自注意力 \(O(T^2)\)
500 ms 窗口 + 10 ms bin = T=50 尚可
长窗口（2 s+）需要 flash-attention / KV cache

NDT3 在线推理：流式处理 + 滚动窗口，10 ms 延迟可达。

九、NDT 系列的商业含义

神经基础模型让 BCI 像 NLP 一样走"预训练 + 微调"路线：

Neuralink、Synchron：自己预训练或用开源基础模型
中小 BCI 公司：无需从头训练，可在 HuggingFace 风格的"BrainHub"下载
研究者：几百条数据就能做出有用 BCI

这将 BCI 从"每实验室独立研发"转向"社区协作生态"。

十、逻辑链

NDT1 证明 Transformer > RNN 在神经数据上，取代 LFADS 的 VAE-GRU。
NDT2 解决跨 session 通道对齐，打破单 session 模型的局限。
NDT3 用 500+ 小时数据预训练，开启 BCI 基础模型时代。
Transformer 的变长 + 长依赖 + 可扩展性特别适合神经数据。
NDT3 = BCI 的 GPT-3 moment——社区协作、跨被试迁移、零样本适配。

参考文献

Ye & Pandarinath (2021). Representation learning for neural population activity with Neural Data Transformers. NeurIPS.
Ye et al. (2024). A unified framework for neural decoding with pretrained transformers (NDT2). ICLR.
Azabou, Ye et al. (2024). NDT3: A foundation model for neural data. NeurIPS. https://arxiv.org/abs/2407.14668
Wang et al. (2023). BrainBERT: self-supervised representation learning for intracranial recordings. ICLR. https://openreview.net/forum?id=xmcYx_reUn6
Antoniades et al. (2024). Neuroformer: multimodal and multitask generative pretraining for brain data. ICLR.