如果告诉你,第二行的图借由fMRI重建的图片,你是否会被惊掉了下巴?是的,人眼看到的东西已经可以被重现。
这次研究者建立了可以从fMRI中重建高分辨率图像的方法。这种方法无需对复杂的深度生成模型进行训练或者微调。
在这之后,又从神经科学的视角对LDM中的各部分的作用进行了定量解释。通过将各组件与人的各脑区进行联系比较,这一说明容易理解。
最后,客观地解释了LDM实现的文本到图像转换过程怎样将由条件文本表示的语义信息合并进来,同时不改变原始图像的样貌。
通过这一方法,可以从不同人的大脑活动中重建视觉图像。
不得不说,作者实现的这一效果实在惊人,但这一成果并非一蹴而就。
此前,已经有研究者尝试通过不同的方式使用fMRI解码视觉信息。
这些视觉信息包括:视觉引起的原始脑活动、视觉刺激引发思考产生的语义内容、想象内容、人类情感变化以及其他相关应用场景。由于fMRI数据通常产生的数据量较小,而所要解码得出的信息量更多,因而这些尝试往往较为困难。
可喜的是,由于DM和LDM等最新算法的出现,生成具有高语义保真度的高分辨率图像更加容易实现,但此前还没有研究把这一类工具用在视觉重建领域。
大阪大学教授Yu Takagi与Shinji Nishimoto共同进行了这一尝试。二人的研究提出了极具前景的基于人脑活动的图像重建方法,并为理解DM(扩散模型)这一全新方法提供了一个新的框架。
研究中,用于重建图像的模型是近一年多在图像生成领域炙手可热的潜在扩散模型(LDM)——Stable Diffusion。
# 研究设计的一大关键是LDM模型
最近的研究表明,通过使用大型语言和图像模型,DM可以从文本输入中创建逼真的高分辨率图像。研究使用的LDM模型结构来减少DM的算力需求。
其中ε代表图像编码器,D代表图像解码器,而τ是一个文本编码器(CLIP)。
# 接着是整体的过程
解码分析的过程分为三步。首先,分别从初级(蓝色)和高级(黄色)视觉皮层的fMRI信号中解码出所呈现图像(z)和相关文本c的潜在表征。然后,将这些潜在表征作为输入,就生成了重建后的图像Xzc。
值得一提的是,对初级视觉皮层的早期研究,大大促进了人类对大脑工作机制的理解。例如“皮层功能柱”、“大脑发育关键期”、“视觉特征提取”、“信号的分级处理”等。
# DM的能力为何如此优秀
深度学习与大脑活动的关系,比如CNN已经得到了一定的解释。但是DM还没有。比如,隐向量、去噪声过程、conditioning operations和U-net等如何与视觉信息流发生关联。
为此,如Encoding Analysis所示,作者构建了一个编码模型,用来预测LDM不同组件所对应的fMRI信号。作者选定的组件为图像z、文本c和z(c),通过这样的分析方式,Stable Diffusion这一新的分析方法的内部过程更容易像CNN这种成熟的深度学习方法一样得以被理解,并建立起与大脑活动的联系。
总得来说,研究通过创新性地应用一种DM模型(LDM),从人脑活动中重建具有高语义保真度的高分辨率图像,且无需对模型进行过多训练与微调,并且通过构建编码模型为LDM的内部组件提供了定量解释,而且是从生物学的角度。
无论是从方式方法还是最终结果来看,这一工作都意义重大。
参考
https://www.biorxiv.org/content/10.1101/2022.11.18.517004v3
https://zhuanlan.zhihu.com/p/134596480
—— End ——