神经潜在基准：NLB 与 FALCON

神经数据基准（neural benchmarks） 是 BCI × 深度学习领域的 "ImageNet"。NLB（Neural Latents Benchmark） 2021 + FALCON（NeurIPS 2024） 定义了标准化评估协议，让神经基础模型（NDT3、POYO、CEBRA）的跨论文对比成为可能。

一、为什么需要基准

BCI 领域的碎片化

2020 年前： - 每实验室自己的数据 - 不同任务、不同指标 - 论文间难比较 - 进步难衡量

基准的价值

统一评估：定义任务 + 指标
公开排行榜：推动竞争
重现性：可验证
新方法显化

ImageNet 2012 → CV 深度学习爆发。BCI 同样需要。

二、NLB（Neural Latents Benchmark）2021

背景

Pei, Ye et al. (2021, NeurIPS Datasets)
Chethan Pandarinath、Mackenzie Mathis、Eva Dyer 等推动
第一个综合 BCI 基准

数据集

MC_Maze：猴子延迟触达任务
MC_RTT：猴子随机触达
Area2_Bump：猴子感觉 + 运动
DMFC_RSG：时间估计
共 4 套、36 小时神经数据

任务

给定时间窗口神经 spike，预测： - 未来 spike（self-supervised） - 行为（运动学） - 潜在变量

主要指标

co-bps（co-smoothing bits per spike）：未来 spike 预测
vel R²：速度预测
FP R²：前向预测

提交方式

预测提交到 EvalAI
公开排行榜
2022-2024 活跃

三、NLB 排行榜演变

2022 初

基线：GLM / LSTM / LFADS
最优 co-bps ~0.3

2023

NDT2 引入
co-bps 提升到 ~0.4
Transformer 显示优势

2024

NDT3、POYO 基础模型
co-bps ~0.5
跨被试预训练作用显著

2025+ 预期

继续上升
饱和点难预测

四、FALCON（2024 NeurIPS）

背景

Foundation Animal LLM Cross-ObservatioN
2024 NeurIPS Datasets Track
推动者：Dyer、Mathis、Kording 等

数据集

更大、更多样： - H1：人类手写（Willett 2021 数据） - M1、M2：猴子运动 - B1：鸟类 / 啮齿

共 ~800 小时神经数据——NLB 的 20×。

任务

"Few-shot calibration"：预训练 → 新被试/任务少量数据快速校准
模拟临床场景（BCI 不能每次 10 小时数据）

指标

R² on held-out behavior
Calibration efficiency
Cross-subject transfer

意义

测试神经基础模型的真正能力
跨被试 + 跨任务不再假设
临床相关设计

五、NLB vs FALCON

	NLB	FALCON
年份	2021	2024
数据	36 小时	800 小时
物种	猴子	猴 + 人 + 鸟
任务	固定	多 + few-shot
指标	co-bps	校准效率
聚焦	解码	迁移

FALCON 是 NLB 的基础模型时代演进。

六、其他基准

BCI Competitions

BCI IV、V：EEG 经典
EEG decoding 标准
Web 平台：bbci.de/competition

IBL（International Brain Laboratory）

啮齿电生理标准化
多中心合作
22 名 PI、10 国家
数据 + 行为共享

DANDI Archive

神经数据仓库
NWB 标准
所有 NLB 数据在此

HCP、NSD

人类 fMRI
NSD 是 MindEye 的 ImageNet
开源

Allen Institute

小鼠大脑全面数据
Brain Observatory
生态学习

七、数据标准

NWB（Neurodata Without Borders）

NWB 2.0 标准
HDF5 基础
跨实验室兼容

BIDS

脑影像标准
fMRI、EEG、MEG

为什么重要

数据再用
元数据 + 实验设置
减少数据 "垃圾数据数据" 问题

八、人类 BCI 数据

开放有限

医疗数据HIPAA 限制
多数实验室谨慎共享

开源例子

Willett 2021 手写：部分开源
DIDI：BrainGate 数据共享
Physionet：EEG 开源

挑战

患者知情同意
去标识化（但脑数据可识别——见脑数据隐私与认知生物计量）
伦理审查

九、工具支持

评测工具

EvalAI：NLB 主平台
HuggingFace Datasets：FALCON
Papers With Code：整合排名

参与方式

注册账号
下载数据
训练模型
提交预测
排行榜自动更新

代码

基线开源
新方法可 fork

十、影响

对研究

方法进化被标准化记录
基础模型价值证实
跨实验室对话

对工业

Precision、Paradromics 用 NLB 预训练模型
Neuralink 未公开但可能内部用
Synchron 可能合作学术

对教育

学生可立即参与
降低 BCI 入门门槛
加速人才培养

十一、局限

1. 数据规模

即便 FALCON 800 小时
ImageNet 140M 图
数据瓶颈 持续

2. 实验设置

简单 reaching task 为主
自由、自然行为少
实际 BCI 使用更复杂

3. 人类数据少

主要猴子、啮齿
临床迁移间接

4. 指标限制

R² / co-bps 不等于临床有用
需新指标（例如 usability）

十二、未来方向

1. 更大基准

FALCON v2 预期
目标 10,000+ 小时
多物种 + 多任务

2. 闭环评测

在线 BCI 性能
用户主观体验
超越离线 R²

3. 临床基准

HIPAA 兼容临床数据
真实患者验证
联邦学习框架

4. 多模态

神经 + 行为 + 环境
"world model" 基准
走向具身智能

十三、逻辑链

基准是 BCI 深度学习的 ImageNet 时刻。
NLB 2021 首个综合基准，co-bps 等统一指标。
FALCON 2024 扩大 20×，聚焦 few-shot 迁移。
NWB、BIDS、DANDI 是数据标准生态。
人类 BCI 数据受 HIPAA / 伦理限制，开源少。
工业 + 学术 都使用基准推进。
未来：更大、更真、闭环、多模态基准。

参考文献

Pei et al. (2021). Neural Latents Benchmark '21: evaluating latent variable models of neural population activity. NeurIPS Datasets. https://neurallatents.github.io/
Karpowicz et al. (2024). FALCON benchmark. NeurIPS 2024. https://snel-repo.github.io/falcon/
Teeters et al. (2015). Neurodata Without Borders: Creating a Common Data Format for Neurophysiology. Neuron.
International Brain Laboratory (2021). Standardized and reproducible measurement of decision-making in mice. eLife.
DANDI Archive. https://dandiarchive.org