多模态Mamba分类器,融合3D GAN 与 ViT 进行高效特征提取与分类 !

阿尔茨海默病（AD）是一种不可逆的神经退行性疾病，通常从轻度认知障碍（MCI）进展而来，导致记忆力丧失，严重影响患者的生活。临床试验表明，对MCI患者进行早期有针对性的干预可能减缓或阻止AD的发展和进展。先前的研究表明，准确的医疗分类需要包括广泛的多模态数据，如评估量表和各种神经影像技术，如磁共振成像（MRI）和正电子发射断层扫描（PET）。然而，在一段时间内持续跟踪同一受试者的诊断并同时收集多模态数据面临重大挑战。为了解决这个问题，作者引入了GFE-Mamba，一个基于生成特征提取（GFE）的分类器。这个分类器有效地整合了评估量表、MRI和PET的数据，实现了更深层次的多模态融合。它高效地提取了长序列和短序列信息，并超越了像素空间以外的附加信息。这种方法不仅提高了分类准确性，还增强了模型的解释性和稳定性。作者基于阿尔茨海默病神经影像计划（ADNI）构建了超过3000个样本的数据集，用于两步训练过程。作者的实验结果表明，GFE-Mamba模型在预测MCI向AD的转变方面是有效的，并且优于几种最先进的方法。作者的源代码和ADNI数据集处理代码可在https://github.com/Tinysqua/GFE-Mamba获取。

1 Introduction

阿尔茨海默病（AD）是老年人中常见的一种神经退行性疾病，它影响记忆力、认知功能以及日常生活活动。AD通常从轻度认知障碍（MCI）进展而来，尤其是遗忘型MCI（aMCI），其主要特征是记忆力下降。尽管aMCI患者经历了明显的记忆丧失，但他们的认知功能尚未下降到痴呆症的水平。预测aMCI患者是否会在一到三年内进展为AD对于预后至关重要。早期识别高风险患者可以制定个性化的治疗和干预计划，这有助于减缓疾病进展并提高生活质量。此外，早期预测还支持患者及其家人做出明智的决定，使他们能够在心理和实践上做好准备。研究表明，早期发现和有针对性的干预可以显著减缓或阻止AD的进展。医生使用预后预测来采取适当的管理和治疗策略。对于高风险患者，通常会采用更为积极的干预措施，如药物治疗和认知训练。诸如胆碱酯酶抑制剂（例如，多奈哌齐）和NMDA受体拮抗剂（例如，美金刚）等药物可以减轻认知症状并延缓疾病进展。对于那些预计不会很快恶化的患者，建议进行定期监测和生活方式干预。常规的认知评估和年度神经影像学检查可以早期发现潜在的变化，而非药物治疗，如认知训练有助于维持或改善认知能力。调整生活方式，包括改善饮食、锻炼和心理支持，可以增强整体健康并提高对疾病的抵抗力[1]。

目前，对aMCI患者的预后预测依赖于神经影像学、认知量表评分和生物标志物检测。《知识量表》是一种广泛使用的初步诊断工具，能有效筛选aMCI，尽管其准确性可能受到个体差异的限制，因此主要适用于初步诊断[2]。磁共振成像（MRI）提供了大脑结构的详细图像，使得可以观察到如脑体积减少和皮质萎缩等变化。同时，正电子发射断层扫描（PET）可以洞察大脑的代谢活动和β-淀粉样蛋白沉积，这是早期检测阿尔茨海默病（AD）的关键标志[3]。尽管其具有重要价值，但PET成像耗时长、成本高、技术要求严格。PET在检测大脑代谢细微变化方面具有高敏感性和特异性，尤其是对于β-淀粉样蛋白和其他早期AD标志物，这使得它是评估AD风险和进展的强大工具。然而，PET成像的复杂性，包括需要特定的放射性示踪剂、高精度检测器和专业的图像重建技术，增加了其成本和难度。此外，对专业行人的需求进一步限制了其广泛应用。尽管存在这些挑战，PET成像在提供关键的预测信息以及监测AD进展方面的独特能力仍然极具价值。要有效预测aMCI向AD的进展，需要考虑多个风险因素，整合各种诊断工具以实现全面评估。

尽管目前采用了多种方法来预测aMCI向AD的进展，但在预测的准确性和可靠性方面仍然存在重大挑战和限制[4]。本研究旨在通过综合多种方法，探索更有效、更准确的途径，以提高预后预测，为改善患者管理和治疗效果提供宝贵见解[5]。为了应对这些挑战，作者提出了一个名为GFE-Mamba的AD预测模型，该模型利用MRI图像自动化地进行AD的分类和预测。这个模型融合了几种先进技术，包括3D GAN-ViT、视觉 Transformer （ViT）瓶颈层、mamba块 Backbone 网络和像素级双向交叉注意力。

这些组件共同有效地从MRI图像中提取病理特征，而GFE模块利用这些特征生成PET图像。通过将尺度信息与mamba块 Backbone 网络结合，作者的方法提高了AD分类预测的准确性。这种集成方法旨在为早期识别和干预处于aMCI进展为AD风险的患者提供一个更可靠和实用的工具。

本文的贡献如下：

3D GAN-Vit 从MRI到PET：作者采用3D GAN作为主干网络，并结合ViT进行生成任务学习。这种组合促进了生成特征提取（GFE）用于Mamba分类器，捕捉来自MRI和PET图像的空间特征。
多模态Mamba分类器：作者引入了一种Mamba分类器，旨在处理大规模信息和3D图像。这个分类器通过六个mamba块处理组合序列，然后使用平均池化和线性层来实现最终的分类。
像素级双向交叉注意力：实施像素级交叉注意力策略，以允许分类器高效捕捉来自MRI和PET图像中未被充分利用的像素空间信息。
数据集构建：为了验证作者方法的泛化能力，作者基于ADNI构建了三个数据集。第一个数据集包含配对的MRI和PET数据（MRI-PET数据集）。后续的一年和三年MCI-AD数据集用于训练分类器。作者提供了数据集构建的详细解释，并将数据集获取和处理的代码在GitHub仓库中公开可用。

2 Related Work

Traditional Alzheimer Prediction Methods

传统的方法预测阿尔茨海默病（AD）进展严重依赖于认知评估和生物标志物检测。诸如迷你精神状态检查（MMSE）[6]和蒙特利尔认知评估（MoCA）[7]等工具已被开发用于评估认知障碍并筛查痴呆症。由小利兰·克拉克（Leland Clark Jr.）[8]引入的生物标志物检测通过测量脑脊液中的β淀粉样蛋白和tau蛋白来评估与AD相关的病理变化。

然而，预测具有轻度认知障碍（aMCI）的患者是否会进展为AD仍然具有挑战性，这受到了诸如教育水平和情绪状态[9]等多种因素的影响。尽管生物标志物检测显示出前景，但它面临着重大的临床挑战，包括标志物的敏感性和特异性不足以及检测过程的侵入性[10]。

Machine Learning Based Alzheimer Prediction Methods

随着技术的进步，传统的阿尔茨海默病预测方法逐渐融入了机器学习技术，从而提高了预测的准确性。Escudero等人[11]利用了多模态数据，包括临床、神经影像和生物化学信息，应用k-means聚类将受试者分为病理性和非病理性组。他们还采用了正则化的逻辑回归进行分类[12; 13]。Wan等人[14]提出了一种稀疏贝叶斯多任务学习方法，以提高计算效率。Young等人[15]通过使用高斯过程分类算法，在ADNI数据库上实现了高预测准确度，并通过混合核函数整合多模态数据。Plant等人[16]结合了支持向量机（SVM）、贝叶斯统计和投票特征区间分类器，在预测AD转变上取得了75%的准确率。Teipel等人[17]将主成分分析应用于MRI变形图，以区分阿尔茨海默病患者与健康对照组，并预测轻度认知障碍（MCI）向阿尔茨海默病的进展。Moradi等人[18]采用了一种半监督学习方法——低密度分割，构建了基于MRI的生物标志物，以预测MCI向AD的转换。

Neural Network Based Alzheimer Prediction Method

随着计算机处理能力的提升和深度神经网络技术的发展，针对阿尔茨海默病（AD）预测方法的研究取得了显著进展[19]。刘C等[20]利用卷积神经网络（CNN）从与认知衰退相关的大脑区域提取图像特征，然后将这些特征与使用支持向量机（SVM）分类器的非图像数据相结合。邱等[21]采用全卷积网络生成MRI图像的高分辨率疾病概率图。他们将高风险区域的特征与非成像数据结合，以分类AD。刘L等[22]引入了3MT架构，通过交叉注意力机制整合多模态信息，并采用了模态丢弃机制。拉希姆等[23]提出了一种混合框架，将3D CNN与双向递归神经网络（RNN）相结合。埃尔-萨帕格等[24]将堆叠的CNN与双向长短期记忆网络（BiLSTM）结合，通过融合五种时间序列多模态数据来预测AD进展，准确率达到92.62%。王M等[25]开发了一种多模态学习框架，通过图扩散方法引入超图正则化，准确率达到了96.48%。这些进展凸显了将不同神经网络架构与多模态信息相结合以提升AD预测模型准确性的日益潜力。

相关领域的近期进展也提供了宝贵的见解。扎等[26]证明了将全局上下文与局部目标特征相结合能显著提高遥感场景分类的准确性。同样，徐等[27]为被遮挡的面部识别开发了一种身份多样性修复技术，该技术在现实世界场景中提高了识别准确性。这些研究强调了在各类应用中，结合不同特征集和先进技术以提高分类和识别准确性的潜在益处。

3 Methodology

作者的方法，如图1所示，主要包括三个主要组成部分：MRI到PET生成网络、多模态Mamba分类器和像素级双向交叉注意力机制。MRI到PET生成网络最初在一个包含配对MRI和PET图像的综合数据集上进行训练。这种训练使得网络能够在没有PET数据的情形下，从MRI扫描中生成PET数据。通过从MRI中提取图像信息，该网络生成PET特征，并将这些中间特征传递给分类器进行多模态融合。多模态Mamba分类器高效处理融合数据，这些数据包括表格数据和中间图像特征，以做出准确的分类判断。最后，像素级双向交叉注意力机制在像素 Level 上操作，整合MRI和PET数据，解决分类器在处理浅层空间图像信息方面的局限性。这种整合方法有效地结合了额外的PET信息，即使只有MRI数据可用，也能使关于患者未来从MCI进展到AD的可能性的预测更加准确。

3D GAN-Vit From MRI To PET

磁共振成像（MRI）和正电子发射断层扫描（PET）分别提供了大脑的结构、代谢和功能信息，使这两种成像方式对于预测阿尔茨海默病的进展至关重要。然而，在临床条件下，将这两种类型的数据整合到一个分类网络中面临两大挑战。首先，需要配对的MRI、PET和标签数据，这一要求苛刻且导致训练数据稀缺。这种稀缺性很容易导致模型过拟合。第二个挑战是，在真实的临床情况下，患者通常只进行成本较低的MRI扫描并完成一些标准测试，导致多模态数据的缺失。尽管存在这些挑战，配对的MRI和PET数据仍然是广泛可用的。为了解决这些问题，作者提出了构建一个生成网络，将MRI数据转换为PET表示。这种方法允许在配对数据上进行有效的表示学习，并在前期完成网络的预训练过程。对于这个生成网络，作者采用了3D GAN-ViT架构。具体来说，作者使用3D GAN网络作为主干，并将原始的ResNet中间块替换为ViT，提高了网络从MRI数据生成准确PET表示的能力。

3.1.1 3D Generative Adversarial Network

Ian等人提出了生成对抗网络（GAN）[2]，用于生成高质量图像，这些图像可以有效地用于下游任务。3D GAN [3]网络将原始GAN模型扩展到三维医学场景中。作者将此3D GAN作为作者生成网络的 Backbone 。GAN网络由两个组件组成：判别器（D）和生成器（G）。判别器推动生成器创建真实的PET图像，并学习如何从MRI中提取特征并将它们转化为PET特征，涵盖广泛的数据集。因此，即使只有MRI数据可用，也可以利用两种模态的特征。

作者提出的3D GAN-ViT网络结构如图2所示。它由一个以卷积层为基础的编码器/解码器模块组成，中间是ViT层。编码器包含三个下采样模块，每个模块包括一个最大池化层、组归一化层、卷积层和ReLU激活层。这些模块的通道尺寸分别为64、128和256。解码器也包括三个上采样模块，通道尺寸为256、128和64。每个上采样模块由一个组归一化层、一个转置卷积层和一个ReLU激活层组成，与下采样模块的结构相呼应。将MRI输入（）送入生成器，通过编码器和解码器生成PET输出（），然后将其用作判别器的输入。判别器使用相同的三个下采样模块处理输入的PET数据（）并生成一个特征图（），参与损失计算。

3D GAN网络的损失函数分为两部分：生成器损失和判别器损失。生成器损失定义为：

其中第一项表示真实和生成的PET图像之间的均方误差（MSE）重建损失，第二项表示生成器的对抗损失，第三项表示通过VGG19 [28]提取的感知损失。判别器损失定义为：

其中第一项表示判别器在真实PET图像上的对抗损失，第二项表示在生成的PET图像上的对抗损失。

伊恩等人提出了生成对抗网络（GAN）[2]，用于生成高质量的图像，这些图像能够有效地被应用于下游任务。3D GAN [3]网络将原始GAN模型扩展到了三维医学场景。作者采用这个3D GAN作为作者生成网络的主体结构。GAN网络由两个主要组成部分构成：判别器（D）和生成器（G）。判别器促使生成器生成逼真的正电子发射断层扫描（PET）图像，并学会如何从磁共振成像（MRI）中提取特征，并将它们转换为PET特征，涵盖广泛的数据集。因此，即使只有MRI数据可用，也能利用两种模态的特征。

作者提出的3D GAN-ViT网络结构如图2所示。它由一个以卷积层为基础的编码器/解码器模块组成，并在中间嵌入视觉变换（ViT）层。编码器包含三个下采样模块，每个模块包括最大池化层、组归一化层、卷积层和ReLU激活层。这些模块的通道尺寸分别为64、128和256。解码器同样包含三个上采样模块，通道尺寸依次为256、128和64。每个上采样模块由组归一化层、转置卷积层和ReLU激活层构成，与下采样模块的结构相对应。将MRI输入（）送入生成器，通过编码器和解码器生成PET输出（），随后作为判别器的输入。判别器使用相同的三个下采样模块处理输入的PET数据（），并生成特征图（），用于损失计算。

3D GAN网络的损失函数分为生成器损失和判别器损失两部分。生成器损失定义为：

其中，第一项表示真实PET图像与生成PET图像之间的均方误差重建损失，第二项表示生成器的对抗损失，第三项表示通过VGG19 [28]提取的感知损失。判别器损失定义为：

其中，第一项表示判别器在真实PET图像上的对抗损失，第二项表示在生成PET图像上的对抗损失。

3.1.2 Vision Transformer as Middle Block

3D GAN-ViT网络的编码器和解码器在将MRI数据压缩到潜在空间以及将其重建为PET数据方面发挥着关键作用。为了增强这一过程，作者用ViT模块替换了3D GAN原始的中部块，而没有使用ResNet模块。这一变化至关重要，因为作者的分类器的主干处理序列，直接将空间特征整合到这个网络中会导致空间信息的丢失。ViT通过在隐藏空间中对图像的扁平化向量应用互注意力来解决这个问题。编码器将MRI数据提取到潜在空间后，表示为，3D特征图被展平为2D特征图，结果是。这个2D特征图随后由ViT处理。通过Patch Embedding，特征图被分割成一系列图像块序列，其中是块大小，是。一旦3D特征图转换为序列，它就会通过包含四个转换块的转换编码器。处理之后，序列被重新调整大小为，并由解码器用于生成PET图像。在预训练阶段，潜在空间中的MRI的表示和PET的表示有效地捕捉了两种模态的信息。这些表示随后被收集并提供给分类器进行下一阶段的信息融合。

Multimodal Mamba Classifier

3.2.1 Time Interval Extraction

为了预测从轻度认知障碍（MCI）进展到阿尔茨海默病（AD）的情况，首先需要确定预测的时间间隔，比如判断患有MCI的病人在特定时间段内是否会转变为AD，例如180天内。例如，如果选择了一个180天的间隔，模型就会预测患有MCI的病人在180天后是否会发展为AD。因此，训练集应当反映相同的诊断间隔时间。然而，构建这样的训练数据集具有挑战性，因为很难确保一个病人的两次诊断之间的时间恰好是180天。为了解决这个问题，作者实施了一个动态策略。作者记录了每位病人实际诊断间隔的时间，并将这些信息连同评估量表类别值一起纳入模型的训练数据中。在推理过程中，作者使用训练集中诊断间隔时间的平均值来进行预测。这种方法补偿了病人诊断确切时间上的差异，并确保模型能够在指定的时间框架内有效地预测从MCI进展到AD的情况。

3.2.2 Preprocessing of Assessment Scales

为了提高作者模型的预测准确性，作者还融入了评估量表，类似于医生在诊断时会同时参考MRI和PET图像以及诊断量表。

将这些量表整合到模型中主要有两个目的：1) 量表直接提供诊断辅助；2) 表格信息结构化程度高，与图像相比噪声较少。

然而，为了通过多模态融合实现有效的分类，必须处理评估量表信息并将其与图像数据融合。作者首先将量表信息分为离散类别值和连续数值。

对于离散类别值： 作者首先将它们转换为独特的热编码，以确保不同行之间没有重复。为实现这一点，每个后续列的值将增加所有先前列中的最大类别数：。一旦获得这些新值，就可以使用线性变换进行嵌入：

其中表示第个特征的偏置，而是第个类别的查找表[9]。

对于连续数值： 这涉及计算每列的平均值 () 和标准差 ()，然后按以下方式对数值进行标准化：。这些标准化后的数值随后使用线性变换进行嵌入：

在处理完类别和数值后，表格信息与图像特征相结合。这可以表示为：

其中和分别表示类别和数值行数。和表示在生成网络的隐藏空间中MRI和PET图像的特征，是嵌入的大小。处理完毕后，被送入分类网络，在那里它与图像信息融合以进行预测。

3.2.3 Mamba Classifier

考虑到输入包含了不同尺度的信息以及由于3D图像特征导致的显著长序列长度，使用具有二次注意力复杂度的传统 Transformer 进行训练效率低下。为了解决长序列建模的挑战，作者采用了Mamba模型[10]。在处理并融合表格信息与图像信息后，序列被送入分类器，该分类器由六个Mamba块组成。Mamba块的架构如图3（A部分）所示。每个Mamba块首先使用RMS归一化对输入序列进行归一化处理，计算输入激活的均方根值，有效防止在深层网络中出现梯度爆炸。

Mamba模块然后处理输入序列，其输出与输入的残差相加：

输入特征首先通过一个线性层，然后被分成两部分：和，其中。部分通过一维卷积，之后进行激活并进一步由选择性扫描模型（SSM）处理：

同时，部分作为一个门控向量，在激活后与进行逐元素乘法。在Mamba分类器之后，通过一个线性层以产生该模块的最终结果。随后，输出通过像素级双向交叉注意力模块和另一个线性层，产生最终的二分类结果：

Pixel Level Bi-Cross Attention

分类器在正向传播过程中集成了来自MRI和PET的图像特征以及表格数据。然而，它并没有有效地利用这些图像的像素级信息。将3D MRI/PET数据直接转换为分类器的序列会导致序列长度过长，从而减慢训练过程。此外，大量图像信息的拼接也可能阻止分类器有效地融合尺度信息。为了解决这个问题，可以采用跨注意力架构[29]。这种方法没有融入分类器的前向传播，但通过注意力机制使MRI和PET中的像素空间信息对分类器中的序列可用。如图3（B部分）所示，在最终分类之前，通过MRI和PET的相互注意力增强分类器中最后一个Mamba块的输出，记作。

对于表示为和的MRI和PET数据，数据被 Reshape 为简化形式的和。对于MRI，内部注意力过程如下：

其中， Query 矩阵（）通过对分类器输出进行线性变换得到，而键（）和值矩阵（）则是通过对序列化的MRI特征进行线性变换得到。这种相互注意力的过程也类似地应用于PET数据。

在计算了相互注意力之后，这些特征与进行残差连接。经过前馈和层归一化操作后，它们再次与原始的进行残差求和。

4 Experiment

Data Acquisition and Processing

为了验证作者的方法，作者使用了公开可获得的ADNI数据集进行了实施。

正如本文所述，作者的模型训练需要两个不同的数据集：一个是配对的MRI和PET数据集，作者称之为MRI-PET数据集；

另一个是用来确定分类器是否能够预测进展为AD的数据集，作者称之为MCI-AD数据集。由于ADNI的隐私政策，作者无法公开分享筛选和处理后的数据集。但是，作者将提供构建这两个数据集的详细描述。

4.1.1 MRI-PET Dataset

数据集的限制相对灵活，需要对应的患者在同一诊断阶段进行的MRI和PET扫描。为了有效地在生成网络上进行训练并实施表征学习，这个数据集需要具有足够大的规模。在数据收集过程中，作者遍历了ADNI1、ADNI2、ADNI3、ADNI4以及ADNI-GO数据集。根据现有文献，特别是文献，在彼此十天内进行的MRI和PET扫描被认为是患者当时状态的代表性表现。对于图像协议，作者选择了未经预处理的矢状位、3D、T1加权MRI扫描（MPRAGE）。对于PET扫描，作者选择了18F-FDG，并应用以下预处理步骤：图像和 Voxel 大小的配准、平均和标准化，以及统一分辨率调整。作者的收集工作共获得了2,843对MRI和PET数据集。这些数据集被划分为2,274对训练集和569对验证集。最初以DICOM格式存储的3D图像，使用MRIcron转换为NIfTI格式，以便更容易处理数据。

4.1.2 MCI-AD Dataset

为了构建这项任务的数据库，确定每位患者在每次诊断时的状态至关重要。作者使用了来自ADNI研究数据的tadpole表格，其中详细记录了每位患者的基本和病理信息。最初，作者识别出所有被诊断为MCI的患者，然后纵向追踪他们随后的诊断。作者记录了随后每次诊断的状态和时机，如图4所示。如果患者的后续诊断为AD，则分类标签设置为1，否则设置为0。

在构建标签后，作者根据表格信息识别出相应的MRI图像。作者使用患者ID和表格中记录的咨询时间，在ADNI图像数据集中搜索并下载相关的MRI图像。最初以DICOM格式存储的MRI数据随后被转换为NIfTI格式。

作者还对tadpole表格进行了修改，增加了一列表示诊断之间时间间隔的，并删除了不必要的信息。删除的内容包括：1)冗余数据，如所属的子集（例如，ADNI1）；2)带有标签信息的提示，如诊断结果；3)与临床诊断和训练场景不相关的复杂指标，例如特定大脑区域的体积。诊断之间的平均时间间隔约为6.7个月，不包括极端值（例如，）。

在处理之后，作者获得了两个数据集：一个是一年进展数据集，另一个是三年进展数据集。一年数据集包含302个样本，分为训练/测试的242/60。三年数据集包含351个样本，分为训练/测试的281/70。MCI-AD数据集包含136个阳性样本和155个阴性样本。这些数据集分别对应于天和天的间隔。表1显示了这些数据集中的平均值、方差以及阳性和阴性样本的数量。### 实验设置

两个组成部分都是在NVIDIA GeForce RTX 4090 GPUs上的PyTorch 2.0框架内使用CUDA 11.8进行的。为了读取NIfTI格式的图像，作者使用了Monai，而Pandas用于读取表格并将其转换为训练数据。3D GAN-ViT模型以批量大小为2进行200个周期的训练。分类器以批量大小为8进行100个周期的训练。两个模型都使用Adam算法进行优化，学习率和betas设置为(0.9, 0.999)。

Evaluation Indicators

作者采用了五种评价指标来评估从ADNI数据集中得出的分类性能：准确度（Accuracy）、精确度（Precision）、召回率（Recall）、F1分数（F1-score）和马修斯相关系数（Matthews Correlation Coefficient, MCC）。它们的定义和公式如下：

其中和分别表示正确预测的正样本和负样本，而和分别表示错误预测的正样本和负样本。

We used five evaluation metrics to assess the classification performance derived from the ADNI dataset: Accuracy, Precision, Recall, F1-score, and Matthews Correlation Coefficient (MCC). Their definitions and formulas are as follows:

where and denote the correctly predicted positive and negative samples, respectively, while and represent the incorrectly predicted positive and negative samples.

Comparative Experiments

如表2和表3所示，作者使用ADNI数据集将GFE-Mamba模型与其他典型分类模型及先进的AD预测模型进行了比较。结果表明，GFE-Mamba模型在这些模型中的表现显著更优，特别是在MCC（马修斯相关系数）和准确度方面。鉴于作者的发现在不同数据集上的一致性，作者将重点关注使用1年数据集的比较分析。

与旨在解决深度网络中梯度消失问题的ResNet系列模型[30]相比，GFE-Mamba在处理MRI图像方面表现出更优越的性能。尽管ResNet模型在捕捉局部病变方面存在困难，但GFE-Mamba利用3D GAN-ViT模块有效地处理空间向量并捕捉空间信息，从而提高了分类的准确性。具体来说，ResNet50模型在精确度和准确度方面落后于GFE-Mamba，分别只达到79.31%和60.00%。

同样，与擅长处理表格数据的TabTransformer模型[31]相比，GFE-Mamba在捕捉MRI图像中的病理特征和识别复杂病理状态方面的能力更强。通过整合3D GAN-ViT模块和多模态Mamba分类器，GFE-Mamba显著提高了分类准确性和模型可解释性。TabTransformer模型的召回率和F1分数明显较低，分别为93.33%和75.68%。

当与传统AD分类模型如XGBoost[32]和Qiu等人[33]的模型进行比较时，GFE-Mamba很好地解决了因第一篇论文的模型依赖于传统CNN而导致的特征提取能力有限和参数冗余问题。同时，作者的GFE-Mamba模型通过引入像素级双向交叉注意力机制，很好地补偿了3D CNN模型在处理高维神经影像数据时计算复杂度高和全局信息捕获不足的问题。因此，GFE-Mamba在特征表达能力及模型可解释性方面有显著提升。相比之下，早期阿尔茨海默病模型和3D CNN模型在召回率和F1分数上的表现不如GFE-Mamba，分别为86.53%、86.92%和81.82%、81.82%。

表3：在3年数据集上，GFE-Mamba与其他最先进模型的比较。

此外，与先进的AD分类模型如融合模型[34]和张等人[35]的模型相比，GFE-Mamba展示了更优越的性能。尽管这些模型在多模态数据处理和特征提取方面表现良好，但它们在特征冗余和非线性特征表示方面存在问题，特别是在复杂的神经影像数据中。GFE-Mamba通过结合3D GAN-ViT和多模态Mamba分类器，减少了空间和通道冗余，优化了特征表示。像素级双向交叉注意力机制进一步增强了非线性特征表示和模型可解释性，同时减少了内存消耗和计算复杂度。因此，GFE-Mamba在捕捉精细的MRI特征和准确区分复杂病理状态方面表现出色。相比之下，多模态深度学习模型和AD分类模型在精确度和F1分数上的表现较低，分别为89.83%、88.91%和76.67%、45.45%。

消融实验研究

在消融实验部分，作者分析了GFE、交叉注意力（Cross Attention）和ViT中间块组件对GFE-Mamba模型在1年和3年数据集上分类性能的个别贡献。作者通过比较在移除GFE模块、交叉注意力模块和ViT中间块模块以及使用完整GFE-Mamba模型时，准确度、精确性、召回率、F1分数和MCC值来评估每个模块的影响。表4和表5展示了结果，表明每个模块都积极影响了模型的分类性能。鉴于这两个数据集上结果的连贯性，作者将讨论重点放在对1年数据集进行的消融实验上。

移除生成特征提取的影响： GFE模块通过使用生成对抗网络（GANs）增强了模型从高维神经影像数据中提取特征的能力。移除这一模块显著限制了模型特征提取的能力，导致性能明显下降。具体来说，精确性从95.71%下降到88.57%，F1分数从96.55%下降到89.29%。这强调了GFE模块在优化特征表示中的关键作用，尤其是对于捕获MRI数据中的细粒度特征。

移除双向交叉注意力模块的影响： 双向交叉注意力模块增强了模型捕捉不同数据模态之间相关性的能力，从而改善了特征表示和模型可解释性。移除这一模块显著削弱了模型整合多模态数据的能力，导致性能指标明显下降。具体而言，召回率从96.55%下降到93.10%，MCC从91.25%下降到91.53%。这些结果强调了双向交叉注意力机制在准确提取和整合多模态数据信息以全面理解和精确分类复杂病理特征的重要性。

移除ViT中间块的影响： 中间块通过ViT增强了模型捕捉全局空间信息的能力，使模型能够处理MRI图像中的广泛空间关系和细微特征。移除这一块减少了模型捕捉全局空间特征的能力，导致性能下降。具体来说，准确度从95.71%下降到87.18%，召回率从96.55%下降到89.47%。提取全局特征能力的减弱使得模型难以有效区分复杂的病理状态。这强调了ViT中间块在捕捉全局空间特征中的关键作用，这对于识别复杂的病理状态至关重要。

移除图像数据的影响： 图像数据对模型整体性能起着关键作用。没有图像数据，模型提取特征的能力显著降低，影响了其在识别病理状态时的准确性。视觉线索的缺失阻碍了有效分类，导致性能指标显著下降。具体而言，精确性从93.33%下降到78.95%，MCC从91.25%下降到83.33%。这些结果强调了图像数据在捕获关键病理特征以实现准确诊断中的重要性。

去除表格数据的影响： 表格数据在多模态数据融合中扮演着关键角色。当移除表格数据时，模型整合来自多个信息源的能力减弱，这损害了它对病理性特征的全面理解。表格数据的缺失限制了模型在利用多源信息方面的有效性，导致性能指标显著下降。具体来说，准确率从95.71%下降到76.47%，F1分数从96.55%降低到86.67%。这些发现强调了表格数据在补充图像数据以实现准确有效分类方面的重要性。

5 Conclusion

本论文提出的GFE-Mamba模型旨在解决从轻度认知障碍（MCI）进展到阿尔茨海默病（AD）的多模态数据融合、特征表现力以及模型可解释性等挑战。

通过整合3D GAN-Vit模型、多模态Mamba分类器以及像素级双向交叉注意力机制，GFE-Mamba能够有效地从MRI图像中提取病理特征，并融入尺度信息以实现稳健融合。

即便在数据不完整的情况下，GFE-Mamba在AD分类中也保持了稳健性。

表格模型数据网络 gan

0 人点赞