学习报告：基于潜在扩散模型的人脑活动高分辨率图像重建-k8凯发旗舰

脑机接口与混合智能研究小组

689

2023-03-22

本篇学习报告介绍的论文题目是“high-resolution image reconstruction with latent diffusion models from human brain activity”。作者是yu takagi和shinji nishimoto，分别来自日本大阪大学和日本信息通信研究机构。该论文最初在2022年11月18日发表于biorxiv，随后在2023年2月28日上榜了2023 cvpr会议论文。

论文摘要

- 这篇论文提出了一种基于扩散模型（dm）的方法，从功能性磁共振成像（fmri）获取的人类大脑活动中重建高分辨率图像。

- 这种方法利用了一种潜在扩散模型（ldm），称为稳定扩散（stable diffusion）。这种模型降低了dm的计算成本，同时保持了它们的高生成性能。

- 这篇论文还通过研究ldm的不同组成部分（如图像的潜在向量z、条件输入c和去噪u-net的不同元素）与不同大脑功能之间的关系，来揭示ldm的内部机制。

- 这篇论文展示了该方法可以直接地从人类大脑活动中重建具有高保真度的高分辨率图像（512×512），而无需对复杂的深度学习模型进行任何额外的训练和微调。

- 这篇论文还从神经科学的角度对ldm的不同组成部分进行了定量解释。

- 总之，这篇论文提出了一种从人类大脑活动中重建图像的有前途的方法，并提供了一种理解dms的新框架。

图1

方法概览

该研究的总体方法如下图 2所示。图 2（上）是该研究中使用的 ldm 示意图，其中，ε 表示图像编码器，d 表示图像解码器，τ 表示文本编码器（clip）。图 2（中）是该研究的解码分析示意图。研究者分别从早期（蓝色）和高级（黄色）视觉皮层内的 fmri 信号中解码了呈现图像 (z) 和相关文本 c 的潜在表征。这些潜在表征被用作生成重建图像 x_zc 的输入。图 2（下）是该研究的编码分析示意图。研究者构建了编码模型来预测来自 ldm 不同组成部分的 fmri 信号，包括 z、c 和 z_c。

图2

解码

下图 3 展示了一个主体（subj01）的视觉重建结果。研究者为每个测试图像生成了五个图像，并选择了具有最高 psm 的图像。一方面，只用 z 重建的图像在视觉上与原始图像一致，但未能抓住其语义内容。另一方面，只用 c 重建的图像生成的图像具有很高的语义保真度，但在视觉上却不一致。最后，使用z_c 重建的图像可以生成具有高语义保真度的高分辨率图像。

图 3

图 4 展示了所有测试者对同一图像的重建图像（所有图像都是用 z_c 生成的）。总体来说，各测试者的重建质量是稳定和准确的。

图4

图 5 是定量评估的结果，结果表明，该研究方法不仅捕捉了低水平的视觉外观，而且还捕捉了原始刺激的高水平语义内容。

图5

编码模型

图 6 显示了编码模型对与 ldm 相关的三种潜像的预测精度：z，原始图像的潜像；c，图像文本注释的潜像；以及 z_c，经过与 c 交叉注意力反向扩散过程后的 z 的加噪潜像表征。尽管这三个组成部分在大脑的视觉皮层产生了很高的预测性能，但它们显示出鲜明的对比。其中z在视觉皮层的后部，即早期视觉皮层具有较高的预测能力。在视皮层前部也有显著的预测价值，即较高的视皮层，但在其他区域的预测价值较小。另一方面，c在高级视觉皮层的预测性能最高。该模型在大范围的皮层上也表现出较高的预测性能。z_c所携带的表示法与z非常相似，对早期视觉皮层表现出较高的预测性能。

图6

图 7 显示，当加入少量的噪声时，z 对整个皮层的体素活动的预测比 z_c 更好。有趣的是，当增加噪声水平时，z_c 对高位视觉皮层内体素活动的预测优于 z，表明图像的语义内容逐渐被强调。

图7

在迭代去噪过程中，添加噪声的潜在表征如图8所示，在去噪过程的早期阶段，z 信号主导了 fmri 信号的预测。在去噪过程的中间阶段，z_c 对高位视觉皮层内活动的预测比 z 好得多，表明大部分语义内容在这个阶段出现了。结果显示了 ldm 如何从噪声中提炼和生成图像。

图8

最后，研究者探讨了 u-net 的每一层都在处理什么信息。图 9 显示了去噪过程的不同步骤（早期、中期、晚期）以及 u-net 不同层的编码模型的结果。在去噪过程的早期阶段，u-net 的瓶颈层（橙色）在整个皮层中产生了最高的预测性能。然而，随着去噪的进行，u-net 的早期层（蓝色）预测早期视觉皮层内的活动，而瓶颈层则转向对更高的视觉皮层的卓越预测能力。