卡内基梅隆大学 & 微软研究院引入 Med-VTAB 用通用预训练权重提高ViTs在视觉任务上性能 !

2024-08-08 11:25:51 浏览数 (2)

视觉任务适应已经在使用专门的可学习层或标记调整预训练的Vision Transformers (ViTs)以适应一般的下游视觉任务方面显示出有效性。 然而,目前还没有大规模的基准来全面探索视觉任务适应在现实而重要的医疗领域的影响,尤其是在不同的医疗视觉模态之间,如彩色图像、X射线和CT。 为了填补这一空白,作者提出了Med-VTAB,一个大规模的医学视觉任务适应基准,包含168万张用于不同器官、模态和适应方法的医学图像。 基于Med-VTAB,作者探讨了医学提示调整的规模法则关于可调整参数以及使用非医学/医学预训练权重进行医学视觉适应的泛化能力。 此外,作者还研究了患者ID分布外对医学视觉适应的影响,这是一个真实且具有挑战性的场景。此外,Med-VTAB的结果表明,单一预训练模型在医学任务适应方面存在不足。因此,作者引入了GMoE-Adapter,这是一种通过门控混合专家 Adapter 结合医学和通用预训练权重的新方法,在医学视觉任务适应方面取得了最先进的结果。

1 Introduction

深度学习最近的进展极大地推动了计算机视觉领域的发展,尤其是引入了视觉 Transformer (ViTs)。这些模型一旦在大规模数据集上预训练,就已在广泛的视觉任务中展示了卓越的能力。通过特殊的学习层或 Token 等机制,ViTs能够适应特定的下游任务,这为特定任务的模型优化开辟了新途径。这种适应性,称为视觉任务适应,允许对预训练模型进行微调,以适应特定任务的特点,从而提高模型的性能和适用性。

尽管有了这些进步,但在医疗领域应用视觉任务适应仍然相对未被探索,尤其是在彩色图像、X射线和CT扫描等多样化的医疗成像方式中。医学成像领域提出了独特的挑战,包括但不限于数据的异质性、对高准确度的关键需求以及模型需要在不同器官和疾病之间泛化。此外,视觉任务适应利用来自医疗和非医疗领域的预存知识的潜力尚未在系统和大规模的方式进行充分研究。

图1:Med-VTAB是一个针对医疗图像适应的大型基准,包含168万个样本、10个丰富的器官和5个具有挑战性的模态在现实医疗场景中。Med-VTAB为涉及全微调、面向 Head 的(例如:线性检测、部分)、面向主干的(例如: Adapter )和面向提示的(例如:VPT)适应方法提供了新的挑战,这些方法使用来自通用和医疗领域的预训练模型。

为了填补这一空白,作者引入了Med-VTAB,这是一个全面的医疗视觉任务适应基准,旨在促进在医学成像领域探索和评估视觉任务适应技术。Med-VTAB包含168万张医疗图像,涵盖各种器官和模态,使其成为同类中最广泛的基准之一。这个基准旨在探查视觉任务适应策略的有效性,并探索在医学成像背景下适应的扩展规律。具体来说,作者研究了医疗提示调整中可调整参数的数量与模型性能之间的关系,同时评估了来自医疗和非医疗预训练权重适应的泛化能力。此外,作者还调查了患者ID分布变化对适应后模型性能的影响,这在模型对新患者数据鲁棒性至关重要的医疗应用中是一个关键方面。除了这些探索之外,作者提出了一种新颖的适应技术,即门控混合专家 Adapter (GMoE-Adapter),它利用来自医疗和通用视觉预训练的见解,在医疗视觉任务适应方面实现了最先进的表现。GMoE-Adapter展示了混合适应策略的潜力,这些策略结合了领域特定知识以及来自多样化来源的广泛、通用学习。

通过Med-VTAB基准以及作者对适应策略和扩展规律的调查研究,这项工作旨在为医疗视觉任务适应研究设立新的标准。通过强调定制适应技术的重要性以及探索新的适应方法,作者为医学成像分析的发展做出了贡献,最终旨在提高诊断准确性和患者结果。

总的来说,作者的贡献可以概括为四个主要方面:

  • 作者推出了Med-VTAB,一个包含168万张医疗图像,涵盖各种器官和模态的新基准,旨在严格评估将预训练的ViTs适应到医学成像领域的有效性。
  • 引入门控混合专家 Adapter (GMoE-Adapter)标志着适应方法的改进,它结合了医疗和通用领域的见解,以提高ViTs在医疗视觉任务上的表现。
  • 通过Med-VTAB精心设计的实验,作者提供了关于各种适应策略的宝贵见解,研究了提示调整的扩展规律、模型适应的泛化能力以及分布外场景的影响。
  • 作者的工作最终在Med-VTAB基准上设立了新的最先进性能标准,展示了GMoE-Adapter在广泛的医疗成像模态和任务中的无与伦比的有效性和泛化能力。

2 Related Work

本节深入探讨了现有基准和适应方法的格局,将作者的工作置于医疗任务适应的更广泛背景中,并突出了Med-VTAB基准和Gated Mixture-of-Experts Adapter (GMoE-Adapter)的新颖贡献。

适应基准。 基准在评估机器学习模型在广泛任务上的性能和泛化能力方面发挥着关键作用。在视觉任务适应领域,像VTAB(视觉任务适应基准)[43]这样的基准已经为评估模型对各种视觉领域和任务的适应性设立了标准。然而,医疗成像领域特有的挑战和要求——从成像方式的多样性到在诊断任务中对高准确性的关键需求——需要一个专门的基准。作者的Med-VTAB填补了这一空白,通过提供一系列专门为医疗领域视觉任务适应技术评估而量身定制的医疗成像数据集,这些数据集涵盖了广泛的器官、成像方式和疾病。与现有主要关注一般视觉任务的基准不同,Med-VTAB对医疗图像的关注为通过适应预训练模型推进医疗图像分析提供了一个有针对性的平台。

医疗任务适应。 医疗成像中的适应技术已经从简单的微调方法发展到更复杂的方法,旨在利用预训练模型而无需大规模重新训练。先前在医疗任务适应方面的工作[38, 39, 31, 25, 40]主要集中在迁移学习上,在这种学习中,模型在大规模医疗数据集上预训练后,在小数据集上针对特定医疗任务进行微调。虽然这种方法有效,但它通常需要大量的计算资源和大型标注的医疗数据集,而这些并不总是可用。近期进展引入了更细致的适应策略,如 Adapter [29](仅在预训练模型的小层上用医疗数据进行训练),以及提示调整[13, 41](调整模型输入以指导适应过程)。然而,这些方法仍然面临在充分挖掘在多样化视觉任务上预训练模型所学习的丰富表示的挑战。GMoE-Adapter在医疗任务适应方面实现了重大飞跃。通过在适应过程中集成门控混合专家机制,它允许动态、上下文感知地调整模型特征,以更好地适应特定的医疗任务。这种方法不仅提升了模型在多种医疗成像任务上的性能,还引入了一个新颖的框架,用于理解和优化医疗成像背景下适应过程。

3 Med-VTAB: Medical Visual Task Adaptation Benchmark

为了全面评估视觉任务适应在医学领域的有效性,作者开发了医学视觉任务适应基准(Med-VTAB)。这个基准精心设计,涵盖了广泛的医学图像(168万张),包括不同的器官和成像方式,并测试了各种适应方法。下面,作者将详细描述基准的架构,包括器官多样性、成像方式多样性以及探索的适应方法范围。

Organ Diversity

Med-VTAB包含了广泛的器官特异性数据集,确保了对人体以及各种疾病和状况的全面覆盖。包含不同器官使得作者可以在不同的解剖结构和病理学上评估适应技术。基准测试中涵盖的器官如下:肺、乳腺、胸部、眼、肩、皮肤、脑、骨和胃肠,如图2(左)所示。这种多样性确保了基准测试不仅考验适应方法的泛化能力,还考验它们在特定医疗场景中的应用性。

为了适应视觉 Transformer 的固定输入尺寸,所有数据集中的图像都被重新调整大小。然而,在处理中特别注意保持图像的宽高比和诊断完整性,这在医学成像中至关重要。强度归一化用于抵消不同成像方式和设备之间在亮度、对比度和曝光上的变化。这一步骤确保了模型关注的是相关的解剖学或病理学特征,而不是成像伪影。为了增强模型的鲁棒性并减轻过拟合,采用了数据增强技术,如旋转、翻转和轻微缩放。这些增强手段是精心选择的,以保持医学上的合理性,避免可能引入误导性或非生理性特征的转换。作者将在补充材料中提供更多细节。

Modality Diversity

医学成像采用多种模态,每种模态都提供了对人体内部结构的独特见解。正如图2(右)所示,Med-VTAB通过包括以下成像模态的数据集来反映这种多样性:彩色图像、X射线、光学相干断层扫描(OCT)、计算机断层扫描(CT)和磁共振成像(MRI)。

这一范围允许评估适应方法在不同成像技术之间的表现,突显它们在处理每种模态所特有的挑战,如不同的图像分辨率、对比度和维度时的适应性和性能。某些模态,如MRI和CT,通过额外的预处理步骤(如窗位技术)受益,该技术调整像素强度的范围以突出特定的组织或结构。

这些模态特定的调整对于最大化图像的诊断价值至关重要。Med-VTAB中采用的预处理步骤旨在既全面又合理,确保模型在类似于真实世界临床成像场景的数据上进行训练和评估。

预处理流程的全面性确保了广泛的成像模态和诊断任务得到充分代表,为评估视觉任务适应技术的泛化能力和适应性提供了坚实的基础。

此外,预处理步骤的合理性体现在它们与临床成像实践的相符性以及对图像诊断完整性的关注上。通过融入模态特定的处理步骤并审慎使用增强技术,预处理流程尊重图像的临床背景,确保所得模型既准确又与临床相关。

Adaptation Diversity

Med-VTAB的一个核心方面是它对各种适应策略的探索。这些策略被分为全量微调、面向 Head 、面向主干和面向提示的适应,每种策略针对预训练模型的不同组件进行优化。以下是每个类别下探索的具体方法:

全量微调. 这种方法涉及对所有的模型参数进行全面的微调,作为适应性能的 Baseline 。

面向 Head . 这个类别专注于适应模型的最后几层( Head ),策略包括:1) 线性概率:微调单个线性层作为分类头;2) MLP-3:使用三层多层感知机适应作为分类头;3) Partial-1 [27]:只微调主干网络的最后一个块,而冻结其他块。

面向主干. 针对模型的主干,这些方法旨在调整核心表示:1) Sidetune [44]:引入并行网络,在主网络冻结的同时进行微调;2) Bias [3]:只调整模型中的偏置项;3) Adapter [29]:在模型的架构中插入小型、可训练的层。

面向提示. 利用提示的概念,这些方法引入小的修改或附加输入以引导模型的关注点:1) VPT [13]-浅层 & -深层:视觉提示调整的变体,在模型的不同的深度引入提示;2) GaPT [41]:一种门控提示调整方法,根据输入动态调整提示;3) LSPT [23]:一种强大的提示调整方法,具有针对时间和空间编码的长期门控提示。

通过涵盖这一广泛的适应策略,Med-VTAB使得在医学成像背景下对各种适应方法的可扩展性、效率和有效性进行彻底的研究。通过这个基准测试,作者旨在为不同的医学视觉任务利用预训练模型确定最佳策略,从而推进医学图像分析领域并提高诊断能力。

4 Method

医学领域与通用领域之间的分歧为仅在单一领域内训练的模型带来了重大挑战,因为那些仅专注于通用领域的模型缺乏医学应用所需的特异性,而专注于医学领域的模型则受到训练数据量和模型容量的限制。为了弥合这一差距,作者考虑利用多个视觉 Transformer (ViTs)进行适应,并引入了一种新颖的方法——门控混合专家 Adapter (GMoE-Adapter),旨在增强ViTs在广泛医学成像任务中的适应能力。在本节中,作者首先概述了所使用的符号,并回顾了ViTs中的 Adapter 概念。然后,作者介绍了利用多个ViTs的方法,包括一个直观的 Baseline 方法和所提出的GMoE-Adapter。

4.0.1 Notations

让表示输入图像,表示医学成像数据集中的相应标签。作者使用来表示预训练的ViT模型,它将转换为一组特征表示。 Adapter 模块,表示为,应用于这些表示以产生特定于任务的特征。最终输出代表模型的预测。的参数表示为,而表示 Adapter 模块的参数。

4.0.2 Adapter

Adapter [29]是插入在预训练模型层之间的微小神经网络模块。它们允许在特定任务上进行微调,而无需显著改变原始模型的参数。这种方法对于医学成像领域特别有吸引力,因为在医学成像中可用的训练数据可能有限,保留预训练模型中的知识至关重要。 Adapter 通常由几个全连接层和非线性激活函数组成,使模型能够有效地学习任务特定特征。

4.0.3 Mixture-of-Experts Adapter

混合专家(MoE) Adapter 通过在 Adapter 模块内融入多个专家网络来扩展 Adapter 概念。每个通用专家 和医学 Adapter 都被设计为专门处理输入数据的不同的方面或特征。MoE方法通过根据输入数据组合这些专家的输出,使得模型能够更细致地适应手头的任务,即 。

4.0.4 Gated Mixture-of-Experts Adapter

基于MoE Adapter ,门控混合专家 Adapter (GMoE-Adapter)引入了一个门控机制,以控制每个专家对最终适配特征表示的贡献,如图3所示。门控机制是一个可训练的组件,它决定了对于给定输入每个专家的相关性,使模型能够动态地将计算资源和注意力分配给最相关的专家。

GMoE-Adapter包括两个关键组件:1) 专家:来自两个不同领域的预训练 Backbone 网络,每个网络都设计用来捕捉医学成像数据的不同方面,使用通用和医学 Adapter 。2) 门控:一个可学习的参数,根据输入特征计算每个专家的权重,有效地确定哪些专家与当前任务最相关。GMoE-Adapter的最终输出定义为每个专家 Adapter 输出的门控插值的组合,即,其中,是嵌入的维度。

将GMoE-Adapter集成到预训练的ViTs中,涉及在模型的战略位置插入 Adapter 模块,通常在每个 Transformer 块之后。这种放置使得适配后的模型能够迭代地改进预训练特征,确保最终的特征表示高度符合医学成像任务的具体要求。通过GMoE-Adapter,作者旨在利用预训练ViTs的丰富表示能力,并增强它们对医学图像分析中细微且多样挑战的适应性。

5 Benchmarking Medical Visual Task Adaptation

Experimental Setup

作者详细介绍了实验设置,包括所使用的的数据集、评估指标、实现细节、在医学视觉任务适应上的基准测试结果,以及与先前工作的比较。

数据集。作者的实验涵盖了全面的医学图像数据集,以确保在多种器官和模态下对GMoE-Adapter进行广泛的评估。具体来说,作者使用了九个彩色医学图像数据集,涵盖了广泛的医学成像挑战,包括息肉(HyperKvasir [4],MESAD Prostatectomy [2],Kvasir [16]),细胞(AMIC [22],LHNCBC [18],MLLBone [21]),眼睛(APTOS [1],EyePACS [14]),以及皮肤(ISIC [34])。作者还从不同的器官收集了七个X射线图像数据集,包括肺部(Vindr [26],COVIDx [37],RSNA [32]),乳腺(CBIS [17]),肩部(SYMH [33]),骨骼(RSNA Bone [10]),以及胸部(CheXpert [12])。作者还包含了七个其他数据集的OCT、CT和MRI模态,包括眼睛(Heidelberg [15]),胸部(CC-CCII [45],Mosmed [24],COVID-C [30],RICORD [36])和大脑(PPMI [20],Brain-Tumor [5])。这些数据集代表了从宏观器官成像到微观细胞分析的多种医学成像任务,使作者能够全面测试现有适应方法以及GMoE-Adapter的适应性和性能。

评估指标。作者采用平均准确度分数作为评估每个数据集上模型性能的主要指标。在评估X射线图像时,报告的是ROC曲线下面积(AUROC)的性能。准确度是在测试集上计算的,为确保结果的鲁棒性,作者报告了三次运行的平均分数,每次运行都使用不同的随机种子初始化。

实现。作者在预训练的视觉 Transformer (ViTs)架构中实现了GMoE-Adapter,具体使用DINO v2 [28] 预训练的ViT-B/16模型(在1.28百万通用图像上)和医学预训练模型[25](在1.6百万细胞图像上)作为作者的基础。作者使用了与先前工作[13]相同的预训练模型参数。

Main Results

为了全面评估现有适应方法在医学视觉任务适应方面的能力,作者对各种医学成像方式进行了广泛的基准测试。本节报告了现有视觉任务适应方法在彩色图像、X射线、OCT、CT和MRI模式下的表现。

对于包括皮肤病变分析和视网膜疾病诊断在内的彩色图像数据集,作者的GMoE-Adapter在将预训练的ViTs适应到这些特定任务时表现出优越的性能。表1中的结果显示,通过将小型的可训练参数插入到主干网络中, Adapter 在捕捉彩色医学图像准确诊断所需的细微特征方面是有效的。

X射线成像方式对于诊断从骨折到肺部疾病等各种疾病至关重要,由于其图像密度和结构的巨大差异,带来了独特的挑战。正如表2所示,尽管可训练参数有限, Adapter 仍然优于线性检测和先前的提示调整方法,展示了其在增强模型对X射线图像中相关病理特征的敏感性方面的能力。对于OCT、CT和MRI等其他成像方式,这些方式的特点是所捕获图像的深度和复杂性, Adapter 再次证明了其实力。表3概括了 Adapter 的性能,展示了它在这些技术多样性的成像技术中的通用性和有效性。

Evaluation of GMoE-Adapter

在将作者的GMoE-Adapter与之前的工作进行比较时,包括原始的Mixture-of-Experts Adapter和其他最先进的适应技术,作者进一步证实了作者的方法的优势。总结在表4中的比较分析展示了GMoE-Adapter在所有评估的数据集和模态上性能的提升。特别是,提出的GMoE-Adapter在Polyp、Prostatectomy和Cell图像上的性能显著优于基于DINO v2 [28]的普通Adapter,分别高出0.37、0.51和0.67。此外,与 Head 导向的 Baseline 方法,如线性检测和Sidetune [44]相比,作者取得了更优的性能提升。同时,尽管GMoE-Adapter与MLP-3具有可比的可训练参数,但GMoE-Adapter的性能仍大幅领先。这些显著的改进证明了作者方法在医学图像分类适应方面的优越性。

此外,与基于160万细胞图像预训练的医学 Backbone 网络的普通Adapter相比,作者也取得了显著的提升。与MoE-Adapter相比,作者在所有医学彩色图像上也实现了更高的结果。虽然MoE-Adapter为将专业知识融入适应过程奠定了基础,但作者的GMoE-Adapter在此基础上引入了门控机制。这一创新允许根据每张输入图像的特定特征动态选择和组合专家选择,从而使得模型预测更加精确和准确。

6 In-Depth Analysis for Medical Visual Task Adaptation

在本节中,作者介绍了作者进行的实验,以讨论以下研究洞见:洞见2. 使用非医学和医学预训练权重进行医学视觉适应的泛化能力。

洞见3. 医学视觉适应中患者ID的分布外情况。

Scaling Law of Medical Prompt Tuning

受到OpenAI的规模法则研究[9]的启发,作者探讨了在可调整参数背景下医疗提示调整的规模法则。作者的分析包括调整可调整参数的数量,并观察在各项医疗成像任务上相应的性能变化。表5中的结果显示出一个明确的趋势(例如,从息肉上的62.21 64.97),即增加可调整参数的数量从1.01X到1.39X可以提高模型的性能。在其他器官方面,随着可调整参数数量的增加,也可以观察到性能的类似上升趋势。这一发现表明提示调整参数的数量与适应效果之间存在一个理想的规模法则,突显了提示调整在医疗应用中的效率。

Generalizability of Medical Visual Adaptation

作者通过将视觉提示调整[13]应用于在医学和非医学数据集上预训练的模型,来检验医学视觉适应的泛化能力。具体来说,作者使用了在128万张通用图像上预训练的DINO v2[28]版ViT-B/16模型,以及[25]在160万张细胞图像上预训练的医学模型。这项在所有彩色图像模态上进行的实验旨在了解预训练来源如何影响适应过程以及在医学任务上的模型性能。表6总结的结果表明,尽管医学预训练权重略有优势,但可调整的提示显著缩小了非医学和医学预训练来源之间的差距。这一结果强调了 Adapter 有效利用学习特征的能力,无论预训练领域如何,从而增强了模型的泛化能力。

Patient ID Out-of-Distribution

表7:非医学预训练视觉 Transformer 在160名患者上的视觉提示调整患者ID分布外结果。总参数表示ViT-B主干、提示标记和任务 Head 的总参数数量。

为了评估患者ID分布外对医学视觉适应的影响,作者使用视觉提示调整[13]在LHNCBC Malaria[18]数据集中的160名感染患者上进行了实验,这些患者具有不同的患者ID划分,包括已见和未见分布。具体来说,作者使用了三种设置以进行全面评估:1) 使用相同数量的已见和未见患者,2) 使用相同数量的已见患者和不同数量的未见患者,来自集合;3) 使用相同数量的未见患者和不同数量的已见患者,来自集合。对于第一种设置,作者改变已见患者的数量,从,以及未见患者的数量,从。表7、8和9的结果表明,提示调整对患者ID变化具有鲁棒性。作者可以观察到,随着可调整参数从1.01X增加到1.39X,模型在所有设置上的性能都有所提高。当使用相同数量的未见患者进行评估时,将已见患者的数量从60增加到80可以提升结果。然而,从80增加到140会恶化结果,这可能是由于训练集的过拟合造成的。尽管在未见患者ID场景中性能自然下降,但 Adapter 保持了令人称赞的准确度水平,这表明它有可能有效处理现实世界的变异,并在患者队列之间有效泛化。

7 Conclusion

在本工作中,作者引入了Med-VTAB,这是一个用于医学视觉任务适应的综合基准,解决了在多种医学成像模态和任务中评估预训练视觉 Transformer (ViTs)的一个重大缺口。通过部署Med-VTAB,作者重点探索了医学视觉适应的图景,包括器官多样性、模态多样性和适应多样性,涵盖了一个庞大的168万医学图像数据集。作者的方法贡献,即门控混合专家 Adapter (GMoE-Adapter),是一种利用医学和通用预训练权重来提高ViTs在医学视觉任务上性能的新方法。实验分析深入探讨了医学视觉适应的三个关键方面:关于可调整参数的医学提示调整的缩放法则,使用非医学和医学预训练权重进行适应的泛化能力,以及患者ID分布外情景对模型性能的影响。作者的发现强调了在医学成像中可扩展、可泛化和健壮适应机制的重要性,其中患者和任务之间的变异性极大。

更广泛的影响。作者对Med-VTAB和GMoE-Adapter的研究不仅推进了医学视觉任务适应领域的最先进水平,也为研究开辟了新的途径。作者的贡献为更个性化、准确和易于访问的诊断工具铺平了道路,最终通过人工智能的力量促进了更好的医疗保健成果。尽管作者的工作有可能显著改善医学成像分析并在对抗分布外数据时显示出鲁棒性,但它也引发了一些重要的伦理考虑。在医疗保健中适应AI模型必须谨慎行事,以确保患者隐私、数据安全和减轻偏见。

参考

[1].A Large-scale Medical Visual Task Adaptation Benchmark.

0 人点赞