非侵入式脑-文本
非侵入式 brain-to-text 是消费级 BCI 的终极目标——不开颅就能读脑。2022–2025 间,MEG、EEG、fMRI 三条路径都有突破性进展,但性能仍远低于侵入式。
一、非侵入式的三条路径
| 路径 | 信号 | 能力 | 代表工作 |
|---|---|---|---|
| MEG | 磁场 | 识别听到的词 | Meta Défossez 2023 |
| EEG | 头皮电位 | 运动想象、P300 | DeWave 2024 |
| fMRI | BOLD | 语义解码 | Tang 2023, MindLLM |
二、Meta Défossez 2023(MEG)
Défossez et al. (2023, Nat Machine Intelligence) 是非侵入式最受关注的工作。
任务
- 感知语音解码:用户听句子,MEG 识别所听词
- 不是"说"也不是"想说"
方法
- 对比学习:MEG 表征 ↔ 预训练语音表征(wav2vec 2.0)
- InfoNCE 目标:让 MEG 表征 match 正确语音片段
- Top-K 识别:从 1,500 词候选中选出最可能
性能
- Top-10 accuracy: 41%
- Top-1 仅 15%(但比随机好 22×)
- 跨被试 zero-shot
局限
- 只能听觉感知,不是产生语音
- 需要磁屏蔽室(不便携)
- 单词级而非句子级
意义
- 证明非侵入式也能做脑-文本对齐
- 对比学习是关键——不要求 MEG 直接输出文本
三、EEG:DeWave 与 MindLLM
DeWave(Duan 2024)
UTS Duan et al. 在 ZuCo(阅读 EEG)上:
EEG → 离散 token (VQ-VAE)
↓
Transformer (类 BERT) 编码
↓
GPT-2 decoder 生成文本
- 离散 token 化让 EEG 能接入 LLM 架构
- BLEU ~10(远低于侵入式但非零)
EEGPT / LaBraM
EEG 基础模型(见 神经基础模型_POYO): - 百万级 EEG 预训练 - 下游任务包括脑-文本 - 性能持续提升但仍限制性
难点
- EEG 信噪比低
- 颅骨空间模糊
- 数据集小
EEG 脑-文本目前属研究阶段,实用水平(>30 WPM)未达。
四、fMRI 语义解码
Tang 2023 Nat Neuroscience
Tang et al. 用 fMRI + GPT-2 解码听故事的语义:
- 被试躺在 3T MRI 里听故事
- fMRI BOLD → 语义表征
- 生成"接近故事意思"的文本
性能
- 不是词级准确
- 能重建意思(BLEU、情感、主题)
- 例:听到 "I don't have a driver's license yet",生成 "She has not even started to learn to drive yet."
限制
- fMRI 慢(~1 s)
- 需要躺在扫描仪里
- 被试必须配合
意义
- 首次证明 fMRI 能重建连续语义
- LLM 作为"语义解码器"的新范式
MindLLM(2024)
MindLLM 把这一方法扩展到: - 更长故事 - 跨被试迁移 - 视觉描述
五、BrainGPT / NeuroGPT 架构
2024 后一系列工作尝试直接训练神经-语言对齐 LLM:
神经信号 (EEG/MEG/fMRI)
↓ 编码
神经 embedding
↓ 作为 soft prompt 输入 LLM
LLM 生成文本
↓ 训练: 预测真实文本
这与 CLIP 的思想一致: - CLIP: 图像 + 文本对齐 - BrainGPT: 神经 + 文本对齐
代表
- BrainCog / BrainGPT(Wang 2023)
- NeuroLM(2024)
- MindFormer
六、EMG "无声语音" BCI
严格说不是"脑-文本"但同属非侵入式通信 BCI:
MIT AlterEgo(2018)
- 腕 + 下颌 EMG
- 识别未出声时的口型微肌电
- 词表 100,准确率 92%
Meta Reality Labs EMG
CTRL-Labs(Meta 2019 收购) 腕带 EMG → 手势 → 文本。2024 Orion 展示消费级 EMG BCI。
EMG 比 EEG 信号强 100×,是"实用非侵入式 BCI"的实际答案。
七、性能对比
| 技术 | 类型 | 速度 | WER | 场景 |
|---|---|---|---|---|
| Utah spike (Willett) | 侵入 | 62 WPM | 9% | 失语 |
| ECoG (Moses) | 侵入 | 15 WPM | 10% | 失语 |
| MEG (Défossez) | 非侵入 | 词级识别 | 59% | 听觉感知 |
| fMRI (Tang) | 非侵入 | 语义级 | 意思 | 听故事 |
| EEG (DeWave) | 非侵入 | 非实时 | 高 | 研究 |
| EMG (AlterEgo) | 非侵入 | 100 词 | 8% | 无声说话 |
关键观察:非侵入式最好的(MEG 41%)仍远低于侵入式(WER 9%)。
八、非侵入式能否赶上侵入式?
乐观视角
- 神经基础模型 + 大规模预训练
- OPM 等 MEG 新技术让设备便携
- 聚焦超声(非侵入刺激)可能带来写入反馈
- LLM 强大先验大幅补偿信噪比
悲观视角
- 颅骨是根本物理障碍,信号衰减 100×
- 非侵入式信息论上限严格低于 spike 级
- 精细控制(>50 WPM)可能永远不可行
实际可能
- 侵入式:临床应用,~100 WPM
- 非侵入式:消费级,~10–20 WPM
- 两者长期共存,不同市场
九、AI 技术栈
非侵入式 BCI 技术栈 2024:
| 层 | 工具 |
|---|---|
| 信号采集 | OpenBCI, Brain Products, Elekta |
| 预处理 | MNE-Python, ICA |
| 特征提取 | CEBRA, EEGPT, LaBraM |
| 神经-文本对齐 | BrainGPT, NeuroLM |
| LLM 后处理 | GPT-4, Claude, Llama |
端到端非侵入 BCI 库(如 SpeechBrain + BCI)正在涌现。
十、伦理考量加剧
非侵入式 BCI 的伦理风险反而更大:
- 无需患者同意即可使用(相比侵入式需要手术)
- 消费级设备可能无处不在
- 数据收集规模可能达亿级用户
- 雇主、政府潜在滥用
这引出 神经权利 的紧迫性——智利 2021 宪法修正、科罗拉多 2024 法律都针对消费级 BCI。
十一、逻辑链
- 非侵入式脑-文本通过 MEG/EEG/fMRI 三路径探索。
- Meta Défossez 2023 证明 MEG + 对比学习可做单词级识别。
- Tang 2023 fMRI 证明可重建语义但非词级。
- EEG 方法性能最低,但商业化潜力最大(消费级)。
- 非侵入式 vs 侵入式 是两个不同市场,不是取代关系。
- 非侵入式 BCI 引出更大伦理争议——隐私、规模、滥用风险。
参考文献
- Défossez et al. (2023). Decoding speech perception from non-invasive brain recordings. Nat Machine Intelligence. https://www.nature.com/articles/s42256-023-00714-5
- Tang et al. (2023). Semantic reconstruction of continuous language from non-invasive brain recordings. Nat Neuroscience. https://www.nature.com/articles/s41593-023-01304-9
- Duan et al. (2024). DeWave: Discrete EEG waves encoding for brain dynamics to text translation. ICLR.
- Kapur et al. (2018). AlterEgo: a personalized wearable silent speech interface. IUI.
- Pu et al. (2024). EEGPT: Pretrained Transformer for Universal and Reliable Representation of EEG Signals. NeurIPS.