跳转至

非侵入式脑-文本

非侵入式 brain-to-text 是消费级 BCI 的终极目标——不开颅就能读脑。2022–2025 间,MEG、EEG、fMRI 三条路径都有突破性进展,但性能仍远低于侵入式。

一、非侵入式的三条路径

路径 信号 能力 代表工作
MEG 磁场 识别听到的词 Meta Défossez 2023
EEG 头皮电位 运动想象、P300 DeWave 2024
fMRI BOLD 语义解码 Tang 2023, MindLLM

二、Meta Défossez 2023(MEG)

Défossez et al. (2023, Nat Machine Intelligence) 是非侵入式最受关注的工作。

任务

  • 感知语音解码:用户句子,MEG 识别所听词
  • 不是"说"也不是"想说"

方法

  1. 对比学习:MEG 表征 ↔ 预训练语音表征(wav2vec 2.0)
  2. InfoNCE 目标:让 MEG 表征 match 正确语音片段
  3. Top-K 识别:从 1,500 词候选中选出最可能

性能

  • Top-10 accuracy: 41%
  • Top-1 仅 15%(但比随机好 22×)
  • 跨被试 zero-shot

局限

  • 只能听觉感知,不是产生语音
  • 需要磁屏蔽室(不便携)
  • 单词级而非句子级

意义

  • 证明非侵入式也能做脑-文本对齐
  • 对比学习是关键——不要求 MEG 直接输出文本

三、EEG:DeWave 与 MindLLM

DeWave(Duan 2024)

UTS Duan et al. 在 ZuCo(阅读 EEG)上:

EEG → 离散 token (VQ-VAE)
      ↓
Transformer (类 BERT) 编码
      ↓
GPT-2 decoder 生成文本
  • 离散 token 化让 EEG 能接入 LLM 架构
  • BLEU ~10(远低于侵入式但非零)

EEGPT / LaBraM

EEG 基础模型(见 神经基础模型_POYO): - 百万级 EEG 预训练 - 下游任务包括脑-文本 - 性能持续提升但仍限制性

难点

  • EEG 信噪比低
  • 颅骨空间模糊
  • 数据集小

EEG 脑-文本目前属研究阶段,实用水平(>30 WPM)未达。

四、fMRI 语义解码

Tang 2023 Nat Neuroscience

Tang et al. 用 fMRI + GPT-2 解码听故事的语义

  • 被试躺在 3T MRI 里听故事
  • fMRI BOLD → 语义表征
  • 生成"接近故事意思"的文本

性能

  • 不是词级准确
  • 能重建意思(BLEU、情感、主题)
  • 例:听到 "I don't have a driver's license yet",生成 "She has not even started to learn to drive yet."

限制

  • fMRI 慢(~1 s)
  • 需要躺在扫描仪里
  • 被试必须配合

意义

  • 首次证明 fMRI 能重建连续语义
  • LLM 作为"语义解码器"的新范式

MindLLM(2024)

MindLLM 把这一方法扩展到: - 更长故事 - 跨被试迁移 - 视觉描述

五、BrainGPT / NeuroGPT 架构

2024 后一系列工作尝试直接训练神经-语言对齐 LLM

神经信号 (EEG/MEG/fMRI)
  ↓ 编码
神经 embedding
  ↓ 作为 soft prompt 输入 LLM
LLM 生成文本
  ↓ 训练: 预测真实文本

这与 CLIP 的思想一致: - CLIP: 图像 + 文本对齐 - BrainGPT: 神经 + 文本对齐

代表

  • BrainCog / BrainGPT(Wang 2023)
  • NeuroLM(2024)
  • MindFormer

六、EMG "无声语音" BCI

严格说不是"脑-文本"但同属非侵入式通信 BCI:

MIT AlterEgo(2018)

  • 腕 + 下颌 EMG
  • 识别未出声时的口型微肌电
  • 词表 100,准确率 92%

Meta Reality Labs EMG

CTRL-Labs(Meta 2019 收购) 腕带 EMG → 手势 → 文本。2024 Orion 展示消费级 EMG BCI。

EMG 比 EEG 信号强 100×,是"实用非侵入式 BCI"的实际答案。

七、性能对比

技术 类型 速度 WER 场景
Utah spike (Willett) 侵入 62 WPM 9% 失语
ECoG (Moses) 侵入 15 WPM 10% 失语
MEG (Défossez) 非侵入 词级识别 59% 听觉感知
fMRI (Tang) 非侵入 语义级 意思 听故事
EEG (DeWave) 非侵入 非实时 研究
EMG (AlterEgo) 非侵入 100 词 8% 无声说话

关键观察:非侵入式最好的(MEG 41%)仍远低于侵入式(WER 9%)。

八、非侵入式能否赶上侵入式?

乐观视角

  • 神经基础模型 + 大规模预训练
  • OPM 等 MEG 新技术让设备便携
  • 聚焦超声(非侵入刺激)可能带来写入反馈
  • LLM 强大先验大幅补偿信噪比

悲观视角

  • 颅骨是根本物理障碍,信号衰减 100×
  • 非侵入式信息论上限严格低于 spike 级
  • 精细控制(>50 WPM)可能永远不可行

实际可能

  • 侵入式:临床应用,~100 WPM
  • 非侵入式:消费级,~10–20 WPM
  • 两者长期共存,不同市场

九、AI 技术栈

非侵入式 BCI 技术栈 2024:

工具
信号采集 OpenBCI, Brain Products, Elekta
预处理 MNE-Python, ICA
特征提取 CEBRA, EEGPT, LaBraM
神经-文本对齐 BrainGPT, NeuroLM
LLM 后处理 GPT-4, Claude, Llama

端到端非侵入 BCI 库(如 SpeechBrain + BCI)正在涌现。

十、伦理考量加剧

非侵入式 BCI 的伦理风险反而更大:

  • 无需患者同意即可使用(相比侵入式需要手术)
  • 消费级设备可能无处不在
  • 数据收集规模可能达亿级用户
  • 雇主、政府潜在滥用

这引出 神经权利 的紧迫性——智利 2021 宪法修正、科罗拉多 2024 法律都针对消费级 BCI。

十一、逻辑链

  1. 非侵入式脑-文本通过 MEG/EEG/fMRI 三路径探索。
  2. Meta Défossez 2023 证明 MEG + 对比学习可做单词级识别。
  3. Tang 2023 fMRI 证明可重建语义但非词级。
  4. EEG 方法性能最低,但商业化潜力最大(消费级)。
  5. 非侵入式 vs 侵入式 是两个不同市场,不是取代关系。
  6. 非侵入式 BCI 引出更大伦理争议——隐私、规模、滥用风险。

参考文献

  • Défossez et al. (2023). Decoding speech perception from non-invasive brain recordings. Nat Machine Intelligence. https://www.nature.com/articles/s42256-023-00714-5
  • Tang et al. (2023). Semantic reconstruction of continuous language from non-invasive brain recordings. Nat Neuroscience. https://www.nature.com/articles/s41593-023-01304-9
  • Duan et al. (2024). DeWave: Discrete EEG waves encoding for brain dynamics to text translation. ICLR.
  • Kapur et al. (2018). AlterEgo: a personalized wearable silent speech interface. IUI.
  • Pu et al. (2024). EEGPT: Pretrained Transformer for Universal and Reliable Representation of EEG Signals. NeurIPS.

评论 #