神经基础模型 POYO

POYO（Azabou et al., 2023 NeurIPS） 是第一个大规模跨数据集、跨被试预训练的神经基础模型，和 NDT3（2024） 共同开创了神经 BCI 的基础模型时代。这与 NLP 从 BERT 到 GPT-3 的跨越在结构上对等。

一、神经数据的"预训练-微调"范式

NLP 的启示： - BERT/GPT 在海量无监督文本上预训练 - 下游任务只需少量标注微调 - 性能 + 泛化 + 跨任务迁移

神经数据的对等： - 预训练：大量无监督 spike/LFP 数据 - 微调：少量标注（手势、光标、语音） - 目标：跨被试/跨任务/跨记录方式迁移

POYO 是首个把这一范式做通的模型。

二、POYO 架构

核心设计

Input: {(unit_i, time_j, spike_count)} — 稀疏 tokens

① Per-unit Embedding
② Cross-attention (PerceiverIO 风格)
   Query: 固定 latent bank (如 256 个)
   Key/Value: 输入 spike tokens
③ Latent self-attention 若干层
④ Task head (可交换)

关键创新

Spike-as-token：每个 spike 是一个 token (unit, time)，类似 words
PerceiverIO：固定 latent 大小，与输入长度解耦——支持变长数据
Rotary position encoding：时间轴
Per-unit embedding：每个神经元独立向量，跨 session 可对齐

三、训练数据与规模

POYO-1（2023）: - ~160 小时电生理 - 40+ 任务类型 - 27 个被试（猴子为主）

POYO+（2024）: - 500+ 小时 - 多个动物种群 + 人类 - Cross-modal（spike + LFP + 行为）

四、实验结果

零样本迁移

在未见过的被试上，POYO 零样本解码精度可达 65–80%（相比从头训练 40%）。

少样本微调

新被试 5 分钟数据 微调后超过从头训练 30 分钟的基线。

跨任务迁移

在猴子手势数据上预训练，迁移到手写 → 性能优于直接在手写数据上训练。

五、POYO 与 NDT3 的比较

	POYO	NDT3
时间	2023 NeurIPS	2024 NeurIPS
规模	~160 h	~500 h
架构	PerceiverIO	Perceiver + 扩展
Tokenization	per-spike	per-unit-bin
多模态	有限	完整
开源	部分	2024 释出

两者是同源工作（Azabou 是共同核心作者）——POYO 奠基，NDT3 进一步扩展。

六、其他神经基础模型

BrainBERT (Wang 2023)

ECoG 专用基础模型，使用 masked 预测。

Neuroformer (Antoniades 2024)

视觉 + 神经多模态预训练。

EEGPT (Pu 2024)

EEG 基础模型，百万级预训练数据。

LaBraM (Jiang 2024, ICLR)

Large Brain Model，VQ 离散 tokenization + Transformer，EEG 跨数据集预训练。

BFM (Brain Foundation Model, 2024 arXiv 综述)

综述回顾 2023–2024 的 10+ 神经基础模型工作。

七、为什么基础模型能在神经数据上工作

尽管神经记录的通道数、被试、任务千差万别，共享一些深层结构：

生物学相似：人脑与猴脑的运动皮层、视觉皮层功能相近
流形几何保守：跨被试神经流形形状相似（第 02 章提到的 Gallego 2020）
任务结构可复用：视觉-运动-注意过程有跨任务共性
自监督无上限：只要有 spike 数据就能预训练

这些让基础模型得以在"脏数据"环境中学到真正共享的计算表征。

八、基础模型的下游任务

POYO / NDT3 基础模型可服务多种下游：

运动解码：光标、机械臂
语音解码：ECoG 版
脑-语言：和 LLM 联动
认知状态：疲劳、注意、错误监测
刺激设计：反向——从目标感知生成刺激

一个预训练模型 + 多个 task head = 平台化 BCI 系统。

九、神经基础模型的 scaling law

初步观察（NDT3, POYO+）表明：

数据翻倍 → 误差 ~-20%（类似 NLP 的 Chinchilla 法则）
参数翻倍 → 误差 ~-15%
下游任务数据 10× → fine-tune 性能显著提升

结论：BCI 基础模型还在 scaling 早期，预计未来 5 年大规模预训练将持续提升 SOTA。

十、开放挑战

伦理与数据共享：神经数据高度敏感，跨机构聚合有隐私障碍
电极异质性：Utah、Neuropixels、Neuralink 输出格式不同，统一 tokenization 仍在探索
闭环适应：预训练基础模型如何在用户使用中持续学习
可解释性：基础模型通常黑盒，临床需要可解释性
安全性：大模型可能被攻击、误用 —— LLM 的对齐问题在 BCI 上同样存在

十一、与类人智能的连接

POYO / NDT3 和 JEPA / LLM 在哲学上一致：

JEPA：预训练的视觉潜空间 → 世界模型
NDT3：预训练的神经潜空间 → "神经基础模型"
LLM：预训练的语言表征 → 通用语言能力

共同的思想：大规模自监督 + 任务条件化——用数据换通用性。详见 10 章与具身智能的连接。

十二、逻辑链

NLP 的预训练-微调范式启发 BCI——但需要克服通道异质性。
POYO 用 PerceiverIO + per-unit embedding 实现跨被试、跨数据集预训练。
POYO+ / NDT3 扩展到 500 小时级，达到"神经 GPT-3"规模。
基础模型在零样本、小样本、跨任务上显著优于传统方法。
神经数据的 scaling law 尚在早期——未来 5 年模型仍将持续提升。

参考文献

Azabou et al. (2023). A unified, scalable framework for neural population decoding. NeurIPS. https://arxiv.org/abs/2310.16046
Azabou, Ye et al. (2024). Multi-session, multi-task neural decoding from distinct cell-types and brain regions. NeurIPS.
Jiang et al. (2024). Large Brain Model for learning generic representations with tremendous EEG data in BCI. ICLR. https://openreview.net/forum?id=QzTpTRVtrP
Wang et al. (2023). BrainBERT: self-supervised representation learning for intracranial recordings. ICLR.
Brain Foundation Models Survey (2025). arXiv:2503.00580.