脑-视频解码
脑-视频解码(Brain-to-Video) 是 fMRI 图像重建的时间扩展:重建用户看到的动态内容。从 Kupershmidt 2022 到 MinD-Video 2023 到 EEG2Video(NeurIPS 2024)——短短两年,脑视频解码从"证明可行"走向"实用化"。
一、任务定义
与图像重建的区别
| 图像重建 | 视频解码 | |
|---|---|---|
| 输入 | 单 fMRI 时刻 | 时间序列 fMRI/EEG |
| 输出 | 静态图 | 视频 |
| 模型 | Stable Diffusion | Text2Video / Video Diffusion |
| 挑战 | 细节 | 时间一致性 |
技术路径
视觉内容的时间一致性是核心难点——即便每帧都能重建,连在一起也可能跳变。
二、MinD-Video(Chen 2023)
Chen et al. (2023, NeurIPS) 首个实用脑-视频解码。
数据
- HCP(Human Connectome Project) 视频 fMRI
- 被试看 ~3 小时视频
- fMRI 1 Hz 采样
架构
fMRI 时间序列 (1 Hz)
↓
fMRI Encoder (Transformer)
↓
Sparse Causal Attention
↓
CLIP-aligned video embedding
↓
Stable Diffusion (video) / Tune-A-Video
↓
重建视频
关键创新
- Sparse Causal Attention:因果注意力让模型只用过去 fMRI——避免未来偷看
- CLIP video alignment:用 CLIP 图像 encoder 处理 每帧 → 平均
- Adversarial loss:加 GAN 判别器提升真实感
性能
- 8 FPS 重建视频
- 语义正确(能看出人走、物体移动)
- 视觉质量远好于前辈
局限
- fMRI 的时间分辨率限制(1 Hz)
- 细节仍模糊
- 被试特定训练
三、EEG2Video(Liu 2024 NeurIPS)
Liu et al. (2024) 用 EEG 替代 fMRI 做视频解码——非侵入式消费级路线。
动机
fMRI 虽好但不便携。EEG 时间分辨率好,但空间差。EEG2Video 试图扬长避短。
方法
EEG (200 Hz)
↓
EEGNet + Transformer
↓
Video embedding sequence
↓
Text-Video LLM (e.g. ModelScopeT2V)
↓
重建视频
关键设计
- EEG 聚焦事件相关:刺激开始后 100–500 ms 的 ERP
- 用 text-to-video 模型作为强先验
- 对比学习 对齐 EEG + 视频片段
性能
- 类别级视频重建(运动、物体、场景)
- 质量远低于 fMRI 但便携 + 消费级可能性
四、共同技术栈
CLIP as bridge
fMRI/EEG → CLIP image embedding → video diffusion
Pre-trained video generator
- Stable Video Diffusion
- Tune-A-Video
- ModelScopeT2V
这些模型预训练于海量视频,为解码提供强先验。
对比学习
Brain signal + video 对的对比训练让两者在潜空间对齐。
五、挑战
1. 时间对齐
fMRI 比视频慢 10–30×(BOLD 延迟),需要时间映射。
2. 运动解码
运动皮层相关活动 vs 视觉皮层视觉——两者如何融合?MinD-Video 仅用视觉皮层。
3. 长视频
时间一致性挑战:长视频人物身份、场景可能漂移。
4. 数据稀缺
fMRI + 视频对非常少——大规模训练受限。
六、梦境解码(研究前沿)
Horikawa et al. 2013 Science 更早的工作:解码做梦时的视觉内容。
方法
- 被试在 fMRI 中睡觉
- 监测 EEG 判断 REM
- REM 时唤醒问"梦到什么"
- 训练 fMRI → 梦内容分类器
结果
- 物体类别级准确率 > 随机
- 开启"脑机梦境记录"想象
2024 进展
- DreamMatrix(假想未来产品):fMRI + LLM 重建梦境叙事
- 目前仍科学研究,距离消费级远
七、应用场景
科研
- 视觉感知机制研究
- 意识状态研究(植物人视觉意识)
- 神经科学 + 生成 AI 合作
临床
- 视觉中枢损伤评估
- 精神疾病诊断(幻觉的重建)
消费级(未来)
- 梦境记录 app
- 沉浸创意工具:"思考 → 视频"
- 虚拟现实的脑控内容生成
娱乐
- 导演用 fMRI 记录"脑中画面"
- 观众 fMRI 反馈优化视频体验
八、伦理前沿
脑-视频解码引发新层级伦理挑战:
视觉隐私
看到什么是高度个人的——谁有权访问?
梦境隐私
梦境是"最私密"的精神活动——解码是否应法律禁止?
记忆
视觉回忆可能被解码——能否重构过去看到的?
欺骗
能否篡改记忆(给与反馈循环)让用户"记得"未发生之事?
九、与生成式 AI 的融合
脑-视频解码是 BCI × Gen AI 最具想象力的交点:
- Diffusion 模型用 brain signal 作为空间指导
- LLM 给视频加时间连贯性
- CLIP 做跨模态对齐
未来可能的整合:
大脑 → 神经编码 → 多模态 LLM → Sora / 类似系统 → 高质量视频
这与 Human_Like_Intelligence/world_model 的"生成式世界模型" 哲学一致——生物大脑的预测编码 = 生成模型的潜空间。
十、开源进展
- MinD-Video:代码 + 预训练权重开源
- CMI-HBN、Algonauts:开源 brain-video 数据集
- OpenBrain(预期 2025):社区版基础模型
十一、逻辑链
- 脑-视频 = 图像重建 + 时间一致性——新的挑战。
- MinD-Video(2023) 首次实现 8 FPS 的 fMRI → 视频重建。
- EEG2Video(2024) 探索非侵入式消费级路径。
- CLIP + video diffusion 是标准管道。
- 长视频、运动融合、数据稀缺是核心挑战。
- 梦境解码 是研究前沿,消费级还远。
- 视觉隐私、梦境隐私让脑-视频引发新的伦理讨论。
参考文献
- Chen et al. (2023). MinD-Video: Seeing beyond the brain: conditional diffusion model with sparse masked modeling for vision decoding. NeurIPS. https://mind-video.com/
- Liu et al. (2024). EEG2Video: Towards decoding dynamic visual perception from EEG signals. NeurIPS.
- Kupershmidt et al. (2022). A penny for your (visual) thoughts: self-supervised reconstruction of natural movies from brain activity. ICLR.
- Horikawa et al. (2013). Neural decoding of visual imagery during sleep. Science.
- Wen et al. (2018). Neural encoding and decoding with deep learning for dynamic natural vision. Cereb Cortex.