非侵入式脑-文本

非侵入式 brain-to-text 是消费级 BCI 的终极目标——不开颅就能读脑。2022–2025 间，MEG、EEG、fMRI 三条路径都有突破性进展，但性能仍远低于侵入式。

一、非侵入式的三条路径

路径	信号	能力	代表工作
MEG	磁场	识别听到的词	Meta Défossez 2023
EEG	头皮电位	运动想象、P300	DeWave 2024
fMRI	BOLD	语义解码	Tang 2023, MindLLM

二、Meta Défossez 2023（MEG）

Défossez et al. (2023, Nat Machine Intelligence) 是非侵入式最受关注的工作。

任务

感知语音解码：用户听句子，MEG 识别所听词
不是"说"也不是"想说"

方法

对比学习：MEG 表征 ↔ 预训练语音表征（wav2vec 2.0）
InfoNCE 目标：让 MEG 表征 match 正确语音片段
Top-K 识别：从 1,500 词候选中选出最可能

性能

Top-10 accuracy: 41%
Top-1 仅 15%（但比随机好 22×）
跨被试 zero-shot

局限

只能听觉感知，不是产生语音
需要磁屏蔽室（不便携）
单词级而非句子级

意义

证明非侵入式也能做脑-文本对齐
对比学习是关键——不要求 MEG 直接输出文本

三、EEG：DeWave 与 MindLLM

DeWave（Duan 2024）

UTS Duan et al. 在 ZuCo（阅读 EEG）上：

EEG → 离散 token (VQ-VAE)
      ↓
Transformer (类 BERT) 编码
      ↓
GPT-2 decoder 生成文本

离散 token 化让 EEG 能接入 LLM 架构
BLEU ~10（远低于侵入式但非零）

EEGPT / LaBraM

EEG 基础模型（见神经基础模型_POYO）： - 百万级 EEG 预训练 - 下游任务包括脑-文本 - 性能持续提升但仍限制性

难点

EEG 信噪比低
颅骨空间模糊
数据集小

EEG 脑-文本目前属研究阶段，实用水平（>30 WPM）未达。

四、fMRI 语义解码

Tang 2023 Nat Neuroscience

Tang et al. 用 fMRI + GPT-2 解码听故事的语义：

被试躺在 3T MRI 里听故事
fMRI BOLD → 语义表征
生成"接近故事意思"的文本

性能

不是词级准确
能重建意思（BLEU、情感、主题）
例：听到 "I don't have a driver's license yet"，生成 "She has not even started to learn to drive yet."

限制

fMRI 慢（~1 s）
需要躺在扫描仪里
被试必须配合

意义

首次证明 fMRI 能重建连续语义
LLM 作为"语义解码器"的新范式

MindLLM（2024）

MindLLM 把这一方法扩展到: - 更长故事 - 跨被试迁移 - 视觉描述

五、BrainGPT / NeuroGPT 架构

2024 后一系列工作尝试直接训练神经-语言对齐 LLM：

神经信号 (EEG/MEG/fMRI)
  ↓ 编码
神经 embedding
  ↓ 作为 soft prompt 输入 LLM
LLM 生成文本
  ↓ 训练: 预测真实文本

这与 CLIP 的思想一致： - CLIP: 图像 + 文本对齐 - BrainGPT: 神经 + 文本对齐

代表

BrainCog / BrainGPT（Wang 2023）
NeuroLM（2024）
MindFormer

六、EMG "无声语音" BCI

严格说不是"脑-文本"但同属非侵入式通信 BCI：

MIT AlterEgo（2018）

腕 + 下颌 EMG
识别未出声时的口型微肌电
词表 100，准确率 92%

Meta Reality Labs EMG

CTRL-Labs（Meta 2019 收购） 腕带 EMG → 手势 → 文本。2024 Orion 展示消费级 EMG BCI。

EMG 比 EEG 信号强 100×，是"实用非侵入式 BCI"的实际答案。

七、性能对比

技术	类型	速度	WER	场景
Utah spike (Willett)	侵入	62 WPM	9%	失语
ECoG (Moses)	侵入	15 WPM	10%	失语
MEG (Défossez)	非侵入	词级识别	59%	听觉感知
fMRI (Tang)	非侵入	语义级	意思	听故事
EEG (DeWave)	非侵入	非实时	高	研究
EMG (AlterEgo)	非侵入	100 词	8%	无声说话

关键观察：非侵入式最好的（MEG 41%）仍远低于侵入式（WER 9%）。

八、非侵入式能否赶上侵入式？

乐观视角

神经基础模型 + 大规模预训练
OPM 等 MEG 新技术让设备便携
聚焦超声（非侵入刺激）可能带来写入反馈
LLM 强大先验大幅补偿信噪比

悲观视角

颅骨是根本物理障碍，信号衰减 100×
非侵入式信息论上限严格低于 spike 级
精细控制（>50 WPM）可能永远不可行

实际可能

侵入式：临床应用，~100 WPM
非侵入式：消费级，~10–20 WPM
两者长期共存，不同市场

九、AI 技术栈

非侵入式 BCI 技术栈 2024：

层	工具
信号采集	OpenBCI, Brain Products, Elekta
预处理	MNE-Python, ICA
特征提取	CEBRA, EEGPT, LaBraM
神经-文本对齐	BrainGPT, NeuroLM
LLM 后处理	GPT-4, Claude, Llama

端到端非侵入 BCI 库（如 SpeechBrain + BCI）正在涌现。

十、伦理考量加剧

非侵入式 BCI 的伦理风险反而更大：

无需患者同意即可使用（相比侵入式需要手术）
消费级设备可能无处不在
数据收集规模可能达亿级用户
雇主、政府潜在滥用

这引出神经权利的紧迫性——智利 2021 宪法修正、科罗拉多 2024 法律都针对消费级 BCI。

十一、逻辑链

非侵入式脑-文本通过 MEG/EEG/fMRI 三路径探索。
Meta Défossez 2023 证明 MEG + 对比学习可做单词级识别。
Tang 2023 fMRI 证明可重建语义但非词级。
EEG 方法性能最低，但商业化潜力最大（消费级）。
非侵入式 vs 侵入式 是两个不同市场，不是取代关系。
非侵入式 BCI 引出更大伦理争议——隐私、规模、滥用风险。

参考文献

Défossez et al. (2023). Decoding speech perception from non-invasive brain recordings. Nat Machine Intelligence. https://www.nature.com/articles/s42256-023-00714-5
Tang et al. (2023). Semantic reconstruction of continuous language from non-invasive brain recordings. Nat Neuroscience. https://www.nature.com/articles/s41593-023-01304-9
Duan et al. (2024). DeWave: Discrete EEG waves encoding for brain dynamics to text translation. ICLR.
Kapur et al. (2018). AlterEgo: a personalized wearable silent speech interface. IUI.
Pu et al. (2024). EEGPT: Pretrained Transformer for Universal and Reliable Representation of EEG Signals. NeurIPS.