跳转至

脑-视频解码

脑-视频解码(Brain-to-Video) 是 fMRI 图像重建的时间扩展:重建用户看到的动态内容。从 Kupershmidt 2022 到 MinD-Video 2023 到 EEG2Video(NeurIPS 2024)——短短两年,脑视频解码从"证明可行"走向"实用化"。

一、任务定义

与图像重建的区别

图像重建 视频解码
输入 单 fMRI 时刻 时间序列 fMRI/EEG
输出 静态图 视频
模型 Stable Diffusion Text2Video / Video Diffusion
挑战 细节 时间一致性

技术路径

视觉内容的时间一致性是核心难点——即便每帧都能重建,连在一起也可能跳变

二、MinD-Video(Chen 2023)

Chen et al. (2023, NeurIPS) 首个实用脑-视频解码。

数据

  • HCP(Human Connectome Project) 视频 fMRI
  • 被试看 ~3 小时视频
  • fMRI 1 Hz 采样

架构

fMRI 时间序列 (1 Hz)
  ↓
fMRI Encoder (Transformer)
  ↓
Sparse Causal Attention
  ↓
CLIP-aligned video embedding
  ↓
Stable Diffusion (video) / Tune-A-Video
  ↓
重建视频

关键创新

  1. Sparse Causal Attention:因果注意力让模型只用过去 fMRI——避免未来偷看
  2. CLIP video alignment:用 CLIP 图像 encoder 处理 每帧 → 平均
  3. Adversarial loss:加 GAN 判别器提升真实感

性能

  • 8 FPS 重建视频
  • 语义正确(能看出人走、物体移动)
  • 视觉质量远好于前辈

局限

  • fMRI 的时间分辨率限制(1 Hz)
  • 细节仍模糊
  • 被试特定训练

三、EEG2Video(Liu 2024 NeurIPS)

Liu et al. (2024) 用 EEG 替代 fMRI 做视频解码——非侵入式消费级路线。

动机

fMRI 虽好但不便携。EEG 时间分辨率好,但空间差。EEG2Video 试图扬长避短

方法

EEG (200 Hz)
  ↓
EEGNet + Transformer
  ↓
Video embedding sequence
  ↓
Text-Video LLM (e.g. ModelScopeT2V)
  ↓
重建视频

关键设计

  • EEG 聚焦事件相关:刺激开始后 100–500 ms 的 ERP
  • 用 text-to-video 模型作为强先验
  • 对比学习 对齐 EEG + 视频片段

性能

  • 类别级视频重建(运动、物体、场景)
  • 质量远低于 fMRI 但便携 + 消费级可能性

四、共同技术栈

CLIP as bridge

fMRI/EEG → CLIP image embedding → video diffusion

Pre-trained video generator

  • Stable Video Diffusion
  • Tune-A-Video
  • ModelScopeT2V

这些模型预训练于海量视频,为解码提供强先验。

对比学习

Brain signal + video 对的对比训练让两者在潜空间对齐。

五、挑战

1. 时间对齐

fMRI 比视频慢 10–30×(BOLD 延迟),需要时间映射。

2. 运动解码

运动皮层相关活动 vs 视觉皮层视觉——两者如何融合?MinD-Video 仅用视觉皮层。

3. 长视频

时间一致性挑战:长视频人物身份、场景可能漂移。

4. 数据稀缺

fMRI + 视频对非常少——大规模训练受限。

六、梦境解码(研究前沿)

Horikawa et al. 2013 Science 更早的工作:解码做梦时的视觉内容。

方法

  • 被试在 fMRI 中睡觉
  • 监测 EEG 判断 REM
  • REM 时唤醒问"梦到什么"
  • 训练 fMRI → 梦内容分类器

结果

  • 物体类别级准确率 > 随机
  • 开启"脑机梦境记录"想象

2024 进展

  • DreamMatrix(假想未来产品):fMRI + LLM 重建梦境叙事
  • 目前仍科学研究,距离消费级远

七、应用场景

科研

  • 视觉感知机制研究
  • 意识状态研究(植物人视觉意识)
  • 神经科学 + 生成 AI 合作

临床

  • 视觉中枢损伤评估
  • 精神疾病诊断(幻觉的重建)

消费级(未来)

  • 梦境记录 app
  • 沉浸创意工具:"思考 → 视频"
  • 虚拟现实的脑控内容生成

娱乐

  • 导演用 fMRI 记录"脑中画面"
  • 观众 fMRI 反馈优化视频体验

八、伦理前沿

脑-视频解码引发新层级伦理挑战

视觉隐私

看到什么是高度个人的——谁有权访问?

梦境隐私

梦境是"最私密"的精神活动——解码是否应法律禁止

记忆

视觉回忆可能被解码——能否重构过去看到的?

欺骗

能否篡改记忆(给与反馈循环)让用户"记得"未发生之事?

九、与生成式 AI 的融合

脑-视频解码是 BCI × Gen AI 最具想象力的交点

  • Diffusion 模型用 brain signal 作为空间指导
  • LLM 给视频加时间连贯性
  • CLIP 做跨模态对齐

未来可能的整合:

大脑 → 神经编码 → 多模态 LLM → Sora / 类似系统 → 高质量视频

这与 Human_Like_Intelligence/world_model 的"生成式世界模型" 哲学一致——生物大脑的预测编码 = 生成模型的潜空间

十、开源进展

  • MinD-Video:代码 + 预训练权重开源
  • CMI-HBNAlgonauts:开源 brain-video 数据集
  • OpenBrain(预期 2025):社区版基础模型

十一、逻辑链

  1. 脑-视频 = 图像重建 + 时间一致性——新的挑战。
  2. MinD-Video(2023) 首次实现 8 FPS 的 fMRI → 视频重建。
  3. EEG2Video(2024) 探索非侵入式消费级路径。
  4. CLIP + video diffusion 是标准管道。
  5. 长视频、运动融合、数据稀缺是核心挑战。
  6. 梦境解码 是研究前沿,消费级还远。
  7. 视觉隐私、梦境隐私让脑-视频引发新的伦理讨论。

参考文献

  • Chen et al. (2023). MinD-Video: Seeing beyond the brain: conditional diffusion model with sparse masked modeling for vision decoding. NeurIPS. https://mind-video.com/
  • Liu et al. (2024). EEG2Video: Towards decoding dynamic visual perception from EEG signals. NeurIPS.
  • Kupershmidt et al. (2022). A penny for your (visual) thoughts: self-supervised reconstruction of natural movies from brain activity. ICLR.
  • Horikawa et al. (2013). Neural decoding of visual imagery during sleep. Science.
  • Wen et al. (2018). Neural encoding and decoding with deep learning for dynamic natural vision. Cereb Cortex.

评论 #