脑-图像/视频解码

继脑-语言之后的第二大前沿是：从神经活动中重建用户所看、所想象的视觉场景。2023–2024 年出现了三类关键进展：MindEye / MindEye2 用扩散模型把 fMRI 信号解码为高保真图像；MinD-Video 首次从 fMRI 重建视频；EEG2Video 在非侵入端复现了这一流程。与此同时，Fernández 2021 Science Advances 让盲人通过 V1 微刺激首次看到稳定的 phosphene——这是视觉写入的起点。

和第 07 章的关系。 脑-语言把神经信号映射到离散符号；脑-视觉把神经信号映射到高维连续空间（pixel / latent）。Diffusion 模型的爆发正好提供了 prior：MindEye 用 CLIP-aligned latent 把 fMRI 嵌入映射到 Stable Diffusion 的潜空间，让"任何 fMRI 体素都能借扩散先验产生合理图像"。这一章和第 13 章伦理有最直接的张力——视觉重建会重建用户的私密视觉记忆，是神经权利立法的最强动机之一。

学习路径。 先读「fMRI 图像重建」掌握 MindEye / MindEye2 / Takagi-Nishimoto Stable Diffusion 三条主干；再用「语义重建」补足 Tang 2023 Nat Neuro 的语义层级解码与 CLIP-latent 路线；接下来「脑-视频解码」沿时间轴扩展到视频（MinD-Video / EEG2Video NeurIPS 2024）；最后「视觉皮层假体」转向写入侧，理解 Fernández 2021 之后 phosphene 高分辨率化的工程路径——这一节是第 09 章感觉写入的视觉版本。

本章内容：

fMRI 图像重建 — MindEye (ICLR 2023)、MindEye2 (ICML 2024)、Takagi-Nishimoto Stable Diffusion
语义重建 — Tang 2023 Nat Neuro；MindDiffuser；CLIP 潜空间解码
脑-视频解码 — MinD-Video、Kupershmidt 自监督、EEG2Video NeurIPS 2024
视觉皮层假体 — Fernández 2021 Sci Adv；phosphene 高分辨率化路径

脑-图像/视频解码

评论 #