fMRI 图像重建
fMRI 图像重建 是 2022–2025 BCI × 生成式 AI 最惊艳的方向——从大脑活动生成用户看到的图像。MindEye、MindEye2、Takagi-Nishimoto 等工作在一年内把重建质量从"模糊类别"提升到"近照片级"。
一、核心原理
fMRI 看视觉的什么
- V1/V2/V3:视网膜地形(retinotopy)——早期视觉特征
- V4:颜色、形状
- IT(颞叶下):物体识别、语义
- fusiform, PPA:面孔、场景
fMRI 多体素模式分析(MVPA)能从整个视觉皮层的 BOLD 模式解码图像信息。
生成式 AI 的角色
Stable Diffusion、CLIP 等生成模型提供了强先验——即便 fMRI 信号噪声大,只要能指向正确语义,生成模型就能补出细节。
二、Takagi-Nishimoto 2023 CVPR
Takagi & Nishimoto (2023) 是现代 fMRI 图像重建的开山之作:
数据
- NSD(Natural Scenes Dataset)
- 8 被试、每被试 ~10000 张 COCO 图像 × fMRI
方法
fMRI voxels
├→ 线性映射 → CLIP text embedding
└→ 线性映射 → CLIP image embedding
↓
Stable Diffusion
↓
重建图像
- 用 Ridge regression 把 fMRI → CLIP embedding
- Stable Diffusion 从 CLIP embedding 生成图像
结果
- 重建出高质量自然图像
- 部分细节(颜色、物体类别)与真实一致
- 某些重建视觉上难以区分原图
三、MindEye 2023 NeurIPS
Scotti et al. (MindEye) 在 Takagi-Nishimoto 基础上大幅提升:
关键创新
- MLP + Diffusion prior:更强的 fMRI → CLIP 映射
- 多模态对齐:同时映射到 image embedding 和 text embedding
- 推理时优化:迭代精调图像
性能
- 跨被试训练 + 被试特定微调
- 比 Takagi 2× 重建质量(LPIPS、CLIP-sim 等指标)
四、MindEye2 2024
Scotti et al. (MindEye2, 2024) 的里程碑:
规模
- 1 小时 fMRI 即可训练
- 开源 + Hugging Face 模型
架构
fMRI
↓
Pretrained fMRI encoder (跨被试)
↓
Diffusion prior
↓
CLIP embedding
↓
Stable Diffusion XL
↓
高质量图像
性能
- Human-level image identification:
- 从 300 张候选中识别重建 → 原图,准确率 93%
- 细节质量接近原图
意义
"我们现在能从 1 小时 fMRI 重建出接近照片质量的图像"——这是 brain decoding 十年最大跃进。
五、技术栈细节
CLIP as bridge
CLIP 是 fMRI 图像重建的关键组件:
- CLIP image encoder 把图像映到 512/768 维
- fMRI 学习映射到同一空间
- Stable Diffusion/SDXL 接受 CLIP embedding 作为条件
这让 fMRI 解码成为标准 CLIP-guided generation。
Diffusion prior
fMRI → Diffusion prior network → CLIP embedding
相比纯 MLP,diffusion prior 能建模 CLIP embedding 的分布 → 更真实重建。
训练数据
NSD(Natural Scenes Dataset) 是这一领域的 ImageNet: - 8 个被试 - 每被试 ~10,000 张 COCO 图像 - 每图 3 次呈现 - 7T fMRI 高质量
没有 NSD,很多工作不可能。
六、局限性
1. 被试特定
大部分方法需要每被试 10 小时 + 数据训练。跨被试 zero-shot 仍差。
MindEye2 把这降到 1 小时——仍远高于"即插即用"。
2. 只能重建见过的
fMRI 解码是关联性的——训练数据外的视觉概念难以解码。
3. 依赖自然图像先验
Stable Diffusion 的"自然图像先验"让重建看起来好——但可能超过 fMRI 实际内容。重建可能是 SD "脑补" 而非真实解码。
4. 延迟大
fMRI 慢(~1 s/scan),不能实时。
5. 语义 vs 视觉
fMRI 重建高层语义(这是只狗)稳,低层视觉(毛色、姿态)弱。
七、与 Tang 语义重建对比
Tang 2023(fMRI → 语言)用语言表达语义;Takagi/MindEye(fMRI → 图像)用图像表达视觉。
| Tang | MindEye | |
|---|---|---|
| 输出 | 文本 | 图像 |
| 侧重 | 语义 | 视觉 |
| 脑区 | 分布式 | 视觉皮层 |
| 用途 | 听故事重建 | 看图片重建 |
未来可能融合——从 fMRI 重建带描述的图像。
八、脑-视频扩展
MinD-Video(Chen 2023) 把这一方法扩展到视频:
- fMRI 时间序列 → CLIP 序列 embedding
- 视频 diffusion 生成
- 重建"看过的视频"
详见 脑-视频解码。
九、应用前景
临床
- 视觉假体:V1 皮层刺激让盲人"看到"——这是 反向问题(见 视觉皮层假体)
- 失忆诊断:比较健康人 vs 患者视觉重建质量
研究
- 神经科学:理解视觉皮层如何编码
- AI 研究:生成模型 × 生物视觉
消费(未来)
- 梦境记录(fMRI 需要便携化)
- 视觉辅助创作
- 情绪可视化
风险
- 隐私:fMRI 可揭示想法
- 同意:被动扫描是否合法?
- 见 13 章伦理
十、开源工具
- MindEye2:完整代码 + 预训练模型
- NSD 数据集:公开可下载
- Stable Diffusion / SDXL:Hugging Face
研究者可在 24 小时内复现论文结果——低门槛促成快速进展。
十一、逻辑链
- fMRI 具有高空间分辨率,适合视觉皮层解码。
- CLIP + Stable Diffusion 提供了从 fMRI → 图像的统一管道。
- Takagi 2023 开启;MindEye2 2024 达到 human-level 识别。
- 1 小时 fMRI 就能训练——可扩展到更多被试。
- 局限:需被试特定训练、只能重建见过的、语义胜过细节。
- 脑-视频扩展已经开始;未来方向是融合文本 + 图像。
参考文献
- Takagi & Nishimoto (2023). High-resolution image reconstruction with latent diffusion models from human brain activity. CVPR. https://openaccess.thecvf.com/content/CVPR2023/html/Takagi_High-Resolution_Image_Reconstruction_With_Latent_Diffusion_Models_From_Human_Brain_CVPR_2023_paper.html
- Scotti et al. (2023). Reconstructing the mind's eye: fMRI-to-image with contrastive learning and diffusion priors. NeurIPS.
- Scotti et al. (2024). MindEye2: Shared-subject models enable fMRI-to-image with 1 hour of data. ICML. https://medarc-ai.github.io/mindeye2/
- Allen et al. (2022). A massive 7T fMRI dataset to bridge cognitive neuroscience and artificial intelligence. Nat Neurosci. — NSD
- Ozcelik & VanRullen (2023). Brain-Diffuser: natural scene reconstruction from fMRI signals using generative latent diffusion. Scientific Reports.