ViLReF:一种汉语视觉语言视网膜基础模型 !

视网膜图像和文本数据的微小语义差异为视觉语言模型的预训练带来了巨大挑战。此外，错误负样本（图像文本对具有相同语义但被错误地看作负样本的图像文本对）破坏了视觉语言预训练过程，并影响了模型的学习能力。本工作旨在开发一个视网膜基础模型，称为ViLReF，通过预训练在包含451,956个视网膜图像和相应诊断文本报告的成对数据集上。在作者的视觉语言预训练策略中，作者利用专家知识来帮助提取标签，并提出了一种新约束，即加权相似性耦合损失，以动态调整在特征空间中进一步拉开样本对的速度。此外，作者采用批处理扩展模块和动态内存队列，由动量编码器维护，以提供额外的样本并补偿由消除错误负样本所造成的空位。作者在多个数据集上进行了大量实验，用于下游分类和分割任务。实验结果表明，ViLReF具有强大的零样本和迁移学习能力，证实了作者的预训练策略的有效性。作者的ViLReF模型可以在以下链接中找到：https://github.com/T6Yang/ViLReF。

I Introduction

随着眼科医学训练数据的可用性，视网膜基础模型近年来受到很大关注，并在临床应用中广泛使用。视网膜图像及其相应的诊断报告是两种常见的、巨大的数据模式，已用于训练视网膜基础模型。与自然图像相比，视网膜图像之间的差异通常更微妙。在正常和疾病视网膜图像中，主要结构非常相似，只有少量的细小区域展示出病理差异，这给基于自监督对比学习的视网膜基础模型带来很大挑战。

在训练基础模型的常见策略中，自监督对比视觉语言联合表示学习通常不需要额外的手动标注，除了诊断报告。理论上，这种策略具有学习各种病变和疾病语义表示的能力。然而，传统的自监督对比学习策略可能会将具有相同语义图像-文本对视为负样本（即虚假负样本）并在预训练期间将它们拉开距离，这引入了噪声，隐藏了模型的病理学差异，并导致在学习临床相关的视觉表示时产生混淆。减少虚假负样本造成影响的一种方法是训练期间引入额外监督。

II Related Work

本节主要介绍与本研究相关的前人研究成果和方法。首先，作者将讨论现有的深度学习模型，然后分析其他研究工作在处理II类问题时所面临的方法和挑战。最后，作者将总结相关工作的优点和不足，并提出本研究的创新点。

Vision-language Pre-trained Foundation Models

预训练是基础模型的基础，旨在使模型能够学习数据的表示。与从头训练模型相比，预训练提高了模型的鲁棒性，并赋予更好的泛化能力。无监督预训练可以被视为一种数据相关的规范化，将优化起点置于自监督下[9]。

基础模型的预训练策略可以一般地分为两类：学习辅助预训练任务对比学习。辅助预训练任务通常通过自监督实现。这些任务生成分辨伪标签，帮助模型从数据中提取代表性知识[10]。例如，Insloc [11]通过剪裁和合成图像构建目标检测预训练任务来学习目标数据表示。专门用于超分辨率的框架，如HIPA [12] 和 NasmamSR [13]，也常用于表示提取和理解。在视网膜领域，类似于RETFound [14]和EyeFound [15]的基础模型，采用了 masked autoencoders (MAE) [16] 的原理。这些模型通过预测输入数据的遮掩区域，信息密集地学习图像表示，在如疾病预测、诊断和预后等关键任务上具有最先进的性能。

对比学习提供了一种直观的方法，通过将正样本的特征向量拉动得更近，将负样本的特征向量推得更远，来学习表示。样本对在预训练过程中动态选择[17]。例如，SimCLR [18] 通过一个可学习的非线性投影和一个对比损失函数，使图像的不同增强视图之间保持对齐。为了解决 InfoCE 损失对批处理大小敏感的问题，MoCo [19] 使用了更新后的编码器输出表示作为嵌入仓库而不是来自训练好的网络。DINO [20] 通过自监督蒸馏增强缩放后的图像块的代表一致性。SwAV [21] 和 PCL [22] 首先对数据进行聚类，以避免计算密集型两两比较和降低对比学习中错误负样本对的比例。

对比预训练策略，例如 CLIP [2]，该策略结合视觉和语言以自动匹配正负样本配对，越来越受欢迎。在医学数据源中，图像及其相关的文本描述是两种常见且丰富的数据模式。大规模医学数据集的出现如 MIMIC-CXR [23]， PadChest [24] 和 ROCO [25]，为医学领域的预训练基础模型提供了必要的数据。

近年来，许多研究探讨了在医学领域的对比预训练视觉语言基础模型。ConVirt [26] 将图像块和句子片段处理为不同但语义对齐的视图以进行双向学习。BioMedCLIP [27] 利用生物医学和生命科学文献中提取的1500万图像-文本对进行预训练，在各种下游任务上获得最佳性能。GLoRIA [4] 应用全局损失和子区域损失在多个尺度上提取表示，捕捉数据中的不同粒度语义信息。在视网膜领域，RetiZero [28] 利用来自公共数据集、眼科文献和在线资源的341,896个视网膜图像-文本对，涵盖400多种视网膜疾病。为了反映真实的临床情景，RET-CLIP [29] 使用双目图像-文本数据集。

Expert Knowledge as Additional Supervision

与自然领域相比，医学领域的数据具有更细粒度、更密集和更专业的语义。通过视网膜图像进行眼科诊断，解释性描述特征包括结构外观（例如，视盘颜色、血管方向、视网膜神经纤维厚度）和局部病变（例如，渗出、视网膜病变模式、新血管化）。诊断报告是用于呈现给医疗机构和患者的临床决策，说明动脉硬化、糖尿病性视网膜病变（DR）和青光眼等条件的存在或不存在。虽然解释性和诊断内容在不同 Level 上呈现，但它们之间高度相互依赖，主要与专家知识相关。

受专家知识驱动的医学任务通常遵循基于代理的范式。例如，对渗出、出血、新血管化、视网膜损伤的全面观察可以提示糖尿病性视网膜病变（DR）。眼内泡大小和视网膜色素上皮变化与年龄相关性视网膜病变的分级相关。专家知识也作为临床先验。例如，视网膜图像中渗出的分割结果可以用于判断黄斑水肿的严重程度，眼杯（OC）和眼盘（OD）直径比例可以用于确定青光眼的存在。

对比学习的基础模型，如CLIP，在预训练过程中往往无法充分利用医学数据中的专家知识，可能导致细微结构表示的损失。此外，虚假负样本对模型性能有显著影响。为了解决这些问题，现有策略利用专家知识获得额外的监督并通过对比学习应用到医学领域。例如，MedCLIP [3]使用基于临床文本的规则性标签提取，并将图像-文本关联解耦，极大地增加了预训练数据量，同时减轻了虚假负混淆。MedKLIP [34]通过将临床专家知识和对疾病的描述纳入表示学习中，增强了表示学习。在视网膜领域，FLAIR [35]使用37个开源数据集构建的预训练数据集，并利用专家知识将这些标签映射为文本描述，从而解决公共视网膜数据集的文本监督稀缺问题。KeepFIT [36]从专业视图图书中收集高质量图像-文本对，采用图像相似度引导文本修订和混合预训练策略以注入专家知识。

在视网膜领域内的对比表示学习中，作者利用专家知识从详细的临床医疗数据中提取诊断标签作为额外的监督，从而减轻虚假负样本的影响，使模型能够理解更细微的病理结构并学习准确的临床推理。

III Method

在这一部分，作者介绍了作者的模型的预训练过程和技术细节。工作流程如图1（a）所示。首先，从数据集中按批量采样视网膜图像-文本对。接下来，作者使用所提出的专家知识为基础的报告 Transformer 从文本报告中提取标签。然后，通过图像编码器和文本编码器提取特征。

同时，作者使用作者提出的加权相似耦合损失来根据其先验相似性约束图像和文本的特征相似性。此外，作者采用了一个批处理扩展模块，该模块由动量编码器和维护，以有效地扩展等效批处理大小。

Label Extraction Driven by Expert Knowledge

当视网膜诊断报告输入到 G_{EK}(cdot) 时，它首先被拆分为多个短语，中文词汇得到标准化，以便于实体映射，确保准确标签提取。在此过程中，医生经常使用的缩略语被标准化为全称医学术语。例如，["] (DR) 被标准化为 ["] (糖尿病视网膜病变)，"RNFLD" 被标准化为 ["] (神经纤维层缺陷)。然后，为了细化语义信息，提取具有其描述的实体，并过滤出不相关短语（如与图像信息无关的“FFA（荧光眼底造影）检查推荐”等），然后利用临床专家知识根据实体及其描述来确定短语的标签。例如，"杯-盘比大于0.5" 可以推理为 "大 optic cup"，"动脉-静脉比例小于2:3" 可以推理为 "薄动脉"。多个短语的标签组合构成每张视网膜诊断报告的标签集。由于视网膜图像和诊断报告是一对一的关系，所得到的文本标签也视为相应视网膜图像的标注。

为了设置所需的标签数量，作者使用Luo等人[37]描述的方法来拆分标准化文本并计算整个文本领域的词频。最后，作者选择“正常”类别，一些“异常”类别和“其他”类别。异常类别包括疾病类别（如“糖尿病视网膜病变”、“脉络膜硬化和“白内障”）和病变类别（如“棉絮斑”、“出血”和“脉络膜皱褶”），“其他”类别包括频率非常低的疾病和病变。

Feature Extraction and Similarity Calculation

作者给定一个大型数据集，从中选择一个子集作为最小批处理输入，其中表示视网膜图像。作者的模型包括一个图像编码器和一个文本编码器，每个包含一个特征提取器和一个非线性投影层。投影层的目的是将从窄带提取的特征映射到整个空间，从而有效避免特征塌缩现象[38]。

特征和在将图像和分词的视网膜诊断报告序列输入图像和文本编码器之后获得。然后，图像和文本特征之间的余弦相似度可以计算为：

同样地，根据获得的标签，标签相似度可以计算为：

图2：作者的视觉语言预训练策略流程图。 (a) ViLReF模型预训练的 Backbone 。 (b) 批量扩展模块的示例。 (c) 基于专家知识的报告 Transformer 的示例。 (d) 流程图中的符号说明。注：灰色框内的文本是相邻中文文本的英文翻译。

请注意，在计算标签的余弦相似度时，"其他" 类别不包括在内，这解释了当时的情况。在作者的模型中，"其他" 类样的样本是对同一预训练最小批中的每个样本的负样本。### 特征相似度的速度调整

受到InfocE损失的启发，作者提出了一种加权相似耦合损失，它旨在为最小批中的特征提供更新的约束，调整在内部推动特征的速度。这种损失函数可以适当地利用标签提供的额外监督，使预训练过程更加健壮。对于 "图像到文本 (i2t)" 和 "文本到图像 ((i2i)" 条件，提出的和分别表示为：

其中，和是图像和文本特征在mini-batch中的自相似性，表示温度系数。通过使用s_{i,j} 将和耦合起来，增加正样本之间的相似性，同时减少负样本之间的相似性。

具体地，表示同一mini-batch中的正样本与true negative样本之间的标签相似性完全不同，对应权重为1，相当于进行softmax操作并使true negative样本远离正样本。当时，表示两个样本具有完全相同的标签，对应权重为0，导致错误的负样本被忽略在计算中。当 0<s_{i,j}<1sigma_{i,j}="" 按标签相似性s_{i,j}="" 线性加权调整两样本之间的加速度，动态调整使其继续远离。<="" p="">

可以观察到，将正样本拉向特征空间中的更接近的区域，而其他样本的特征相似性的加速远离速度由调整。具体以为例，其关于的负梯度表示为：

其中，计算结果总是非负，表示正样本始终被拉向特征空间中更接近的区域。类似地，关于的负梯度表示为：

这表明随着的增加，绝对梯度逐渐减小。当较高时，表示相似的样本，梯度变得较小，因此将相似样本在特征空间中更慢地推开。相反，当较低时，梯度较大，推动样本更快地分开。

Batch Expansion Using Memory Queues

消除或线性权重的对比样本可能会影响，从而降低梯度和削弱预训练效果。为解决这个问题，作者采用了一个批处理扩展模块，使用动态内存队列来补偿丢失的对比样本，如图1(b) 所示。

首先，图像和文本编码器分别增加了额外的动量编码器和。动量编码器的参数分别初始化为相应的图像和文本编码器，并且在预训练期间不会通过梯度进行更新。相反，它们使用动量更新方法进行更新：

其中表示网络参数，是预设的动量系数。变量表示当前的全球预训练步骤。

动量编码器将特征提取和存储到两个动态内存队列和中，每个队列的大小为。然后，作者计算了和中特征和（，）之间的指数特征相似性和，其中

（9）与公式（2）类似，作者计算标签相似性如下：

在此情况下，加速度加权相似耦合损失和可计算为：

这个模块通过有效地使用和扩展了等效的批处理大小，补偿了损失函数梯度减少导致的预训练减弱，同时计算开销只有通过加速度编码器稍微增加。加速度编码器的缓慢更新也确保了和中每个特征的连续相关性，避免由于快速变化导致特征判断不一致。

最后,整体损失函数可以表示为：

IV Experiments

在本节中，作者在各种下游任务和数据集上验证作者的模型，以证明 VLReF 的优越性能以及预训练策略的有效性。作者详细介绍了预训练和评估数据集，与现有的预训练策略进行比较呈现实验结果，进行消融研究以验证每个组件的贡献，并将作者的模型与最先进的视网膜基础模型进行比较。

Datasets

Iv-A1 Pre-training dataset

预训练数据集包含北京同仁医院提供的4,519,56对视网膜图像及相应的诊断报告。这些视网膜图像来自我国各地的各类医疗机构，而诊断报告则由专业眼科医生撰写。在数据预处理阶段，患者私人信息被删除。作者分析了文本数据中的中文词语频率，去除了语义歧义，确定了33个常见类别，包括1个“正常”类别，7个疾病类别和24个病变类别，以及1个包含非常罕见类别的“其他”类别。类别标签以多热二进制格式表示。这种方法基于一个假设，即同一迷你批次中出现罕见类别样本的概率非常低，使它们合理地被归类为“其他”类别，不会影响预训练作为错误负样本。作者预训练数据集的详细信息如表1所示。

Iv-A2 Evaluation datasets

为了评估，作者使用了以下八个公开数据集，如下所述。

**RFMiD [39]**是一个视网膜图像数据集，包含3,200张图像，分为28个类别，包括27种疾病和1种“其他”。
**ODIR [40]**是一个包含6,392张视网膜图像的数据集，图像分辨率各异。这些图像被分为8个类别。
**REFUGE [41]**包括1,200张带有参考标签的彩色视网膜图像，用于评估青光眼和非青光眼状况。
**MESSIDOR [42]**包含1,200张各种分辨率的视网膜图像。每张图像有两个医学诊断：糖尿病视网膜病变（DR）分级和黄斑水肿风险。作者使用DR等级的4级数据进行评估。
**FIVES [43]**是一个视网膜图像数据集，包含800张带有标注的彩色视网膜图像。四种条件（正常、年龄相关性黄斑病变、DR和青光眼）用于评估。
**IDRiD [44]**提供了81张带有DR征象的彩色视网膜图像。每张图像附带与DR相关的像素级病变分割，包括四种类型。这些分割作为二进制 Mask 提供。
**Retinal-Lesions [45]**包含1,593张带有八个专家标注的病变段图像。
**FGADR [46]**由两个集合组成，作者使用其Seg-set，包含1,842张图像，带有像素级病变标注和图像级 Level 标签。病变分为四种类型。

这组数据集的选取在作者所涉及的广泛的下游任务和不同的视网膜条件下，为作者模型的全面评估提供了基础。

Implementation and Evaluation Metrics

作者使用PyTorch构建网络并预训练基于中文CLIP [47] (CN-CLIP)的VLReF。CN-CLIP在包含大约2亿图像-中文文本对的大规模数据集上进行预训练。作者使用ViT-B/16 [48]作为图像编码器，RoBERTa-wwm-ext-baselines [49]作为文本编码器。在进行数据预处理时，所有视网膜图像都被重新缩放到224×224。每个图像以0.5的概率水平翻转以进行数据增强。颜色扰动因子为0.1，用于调整亮度、对比度和对称性。根据[50]的研究结果，中文文本输入由字符而不是单词进行分割。

预训练过程的超参数设置如下：最大文本长度l设置为100，批处理大小N设置为256。编码器中的投影层输出的特征维数固定为512，可学习温度系数τ初始化为0.07。动量系数m设置为0.75，内存队列大小N_{Q}设置为768。在单个RTX 3090 GPU上进行预训练的总时间为16小时，使用自动混合精度训练。在评估下游任务时，作者使用特征提取器提取的特征而不是投影层。

在进行定量研究时，作者采用接收者操作特性曲线下的面积（AUC）和平均精确率（mAP）作为分类评估指标。AUC评估整体性能，而mAP更注重评估长尾部标签数据。为了评估分割结果，作者使用Dice相似系数（DSC）和交并比（IoU）。DSC衡量分割结果与实际值的相似性，而IoU计算分割结果与实际值的重叠。报告的每项实验值在每个实验中是对五个重复运行的平均和标准差的值。

Comparison with Existing Pre-training Strategies

在本节中，作者将在与作者的ViLReF相同的预训练数据集上比较作者的预训练策略与现有预训练策略的有效性。比较方法如下简要概述：

MAE [16] 可以通过重建基于 Mask 编码器的预先训练模型来使模型通过 Mask 化的预任务学习表示。已有的实验结果表明，当将 Mask 比率设置为0.75时，模型获得最佳性能，这意味着它会遮盖图像区域的并重建它们。
CLIP [2] 使用了InfoCE损失来从数据中采样负样本并直接在特征空间中将所有样本推得更远。
DeiT [52] 涉及训练一个基于卷积的教师模型并使用蒸馏标记来对教师模型和ViT为基础的学生模型之间的输出分布进行对齐。这种方法可以帮助学生模型从教师模型中学习归纳偏见。
MedCLIP [3] 引入了语义匹配损失，使标签相似度指示特征相似度的优化目标。

作者使用与ViLReF相同的预训练数据集，并固定图像编码器为ViT-B/16。在进行定量评估时，作者使用线性检测，全部微调分类，以及基于提示的跨领域零样本分类（以下简称基于提示的OOE-ZSC）。线性检测 [16] 首先介绍，它通过保持模型参数不变，替换最后一个层为可训练的线性层，评估预训练过程中获取的知识的质量。在全部微调分类中，所有模型参数均微调以优化下游分类任务，可以评估模型的泛化性能。在基于提示的OOE-ZSC中，所有模型参数固定以匹配预训练批次中的多个图像和文本，测试模型习得的表示的转移性能和图像与文本编码器之间的模式对齐性能。定性评估采用多模态Grad-CAM [53] 方法。这种方法允许使用文本特征作为输入，通过图像编码器反向传播并生成突出显示与文本相关区域的热力图。

Iv-B1 Results on linear probing

作者首先在RFMiD，ODIR，REFUGE，MESSIDOR和FIVES数据集上评估了作者的预训练策略与现有策略的线性推理性能，结果如表2所示。作者的预训练策略始终显著优于其他策略，使模型在所有测试数据集中获得最高的AUC和mAP。值得注意的是，对于RFMiD数据集，该数据集具有大量类别且数据分布不均，作者策略预训的模型实现了94.29%的显著AUC，比排名第二的DeiT基模型高0.74%。在MESSIDOR数据集的DR评分任务中，区分类间特征具有挑战性，作者策略取得了最佳mAP 63.75%，比DeiT基模型高4.08%。

基于MAE的模型在AUC和mAP得分上表现较低。这可以归因于自监督预训练任务中的重建级 Mask 比例高和缺乏粒度，这使模型难以有效学习细粒度病变表示。CLIP策略可能导致虚假负样本，从而损害模型性能。然而，由于许多假负样本属于“正常”类别，如表1所示，模型在下游疾病分类任务中仍可实现令人满意的性能。在DeiT策略中，假负样本的存在意味着学生模型优化为来自老师模型的噪声分布，这并未导致性能提升。MedCLIP策略利用交叉熵损失来校正标签相似度与特征相似度。虽然它有效地减轻了假负样本的影响，但关于标签相似性是否准确反映了特征相似性存在疑虑。此外，不可避免的标签噪声可能会影响预训练效果。

作者的预训练策略利用标签信息作为对比学习的额外监督。通过在特征空间中动态调整推动样本对进一步分离的速度，它减轻了由假负样本引起的影响，使模型可以学习更多的语义准确的表示。

Iv-B2 Results on fully fine-tuned classification

作者应用了完全细调的分类任务，将作者的预训练策略与现有方法在测试数据集上进行比较。结果如表3所示。从实验结果中，作者可以得出与线性检测的结论一致的结论：使用作者策略预训练的模型在每个测试数据集上都表现出卓越的性能。这表明作者的预训练策略不仅使模型在预训练阶段学习到丰富的、高质量的表示，而且在特定下游任务上具有强大的泛化性能。

Iv-B3 Results on prompt-based OOD-ZSC

作者应用基于提示的OOD-ZSC来评估特征提取质量和视觉语言表示对齐性能。结果如表4所示。MAE策略不涉及文本，因此在此比较中排除。

CLIP策略由于假负，在引入噪声后，使得语义相同的图像和文本的匹配变得更加复杂。DeiT策略在跨模态对齐上的性能较差，因为蒸馏约束引入了不确定性。MedCLIP策略，该策略将特征相似性对齐到标签相似性，使得模型在某些测试数据集上实现了良好的性能。例如，在DIR上实现了59.57%的mAP。然而，在预训练阶段，被归为不同等级的DR样本被分配到相同的标签，并进行优化，使得特征空间中的样本相似，导致DR分级任务中出现假阳性样本，从而降低了AUC性能。

对于这些潜在的假阳性样本，作者的预训练策略选择消除它们，而不是迫使它们变得相似。

这种方法使得模型能够有效地适应各种下游任务。作者的预训练策略允许模型实现最佳的整体性能，并能够将不同等级的疾病区分开来，正如在MESSIDOR数据集上的DR分级任务上，实现了72.25%的AUC和47.73%的mAP，分别超过排名第二的CLIP基模型13.57%和13.41%。

Iv-C4 Multi-modal activation map visualization using Grad-CAM

为了更直观地展示ViLReF提取的特征的 interpretability，作者采用了多模态 Grad-CAM 方法来可视化梯度激活 Heatmap 。多模态 Heatmap 覆盖图（Overlays）绘制在 IDRiD，Retinal-Lesions 和 FGADR 数据集（每个疾病一个样本）上，如 Fig. 3 所示。由于空间限制，作者仅提供ViLReF和采用CLIP策略训练的亚军模型的结果。由于标签提供的额外监督以及提出的加权相似度耦合损失，ViLReF 更能有效地学习视网膜图像的病变特征，这可以从病变出现的时间、位置和程度的更准确激活位置来体现。此外，ViLReF 能够学习到更微妙的病变模式。

Ablation Study

为了评估作者的预训练策略中每个组件的贡献，作者使用与先前评估相同的预训练数据，并将图像编码器固定为ViT-B/16，然后引入特征相似度速度调整（SA）和批处理扩展（BE）到基础的CN-CLIP。接着，作者将它们在两个下游任务上的表现进行比较：完全微调分类和基于提示的OO-ZSC。

Iv-D1 Results on fully fine-tuned classification

第五表展示了全语义微调的分类性能结果。如果没有应用SA，只使用BE并不能显著提高性能，因为它不能解决假阴性样本的影响。另一方面，仅应用SA可以显著提高模型的性能。例如，在REFUGE上的AUC增加到，比基准提高了，在FIVES上的mAP增加到，提高了。当同时应用SA和BE时，模型在所有数据集上都实现了最佳性能。这表明，动态内存队列有效地补偿了消除假阴性样本造成的空洞。

V-D2 Results on prompt-based OOD-ZSC

表6 显示了基于提示的OO-ZSC性能的结果。从实验结果中，作者可以得出与全量微调任务一致的结论。如预期所，将SA和BE相结合，在所有数据集上都带来了显著的改进。

这些消融实验凸显了作者预训练策略的两个关键要素在改善模型在眼科数据中捕捉和理解泛化表示的能的同时，保持跨数据集视觉和语言表示的强烈对齐。

Further Discussion on Pre-Training Effectiveness

在本节中，作者进一步探讨了作者的预训练策略的有效性。作者引入了均值标签熵（mLE）来评估具有不同比例相同标签的训练数据对预训练的影响。此外，作者使用t-分布随机邻近嵌入（t-SNE）[54]可视化特征空间中分布的聚类模式，这有助于验证作者的预训练策略是否正确地区分不同类别的图像并聚合相同类别的图像。

V-E1 Label Entropy Analysis

作者从全预训练数据集中随机选择包含不同mLE（misclassification likelihood）的100,000个图像文本对进行抽样，以预训练模型。mLE的计算方法如下：

当数据集的mLE较高时，相同标签的比例较低；当mLE较低时，相同标签的比例较高。全预训练数据的mLE为0.1423，而抽样子集的mLE分别为0.05、0.075、0.1、0.125和0.15。作者研究在不同预训练策略下，随着预训练数据集的mLE变化，基于提示的OOd-ZSC性能的变化。结果如图4所示。可以观察到，随着mLE的增加，四种预训练策略的性能得到提高。在这些策略中，CLIP和MedCLIP策略受到严重影响，表明它们无法有效地减轻由错误负样本造成的影响。DeiT的结果进一步验证了上述声明，即消除约束引入了不确定性。无论预训练数据集的mLE值如何，作者的策略都实现了最佳的基于提示的OOd-ZSC性能。值得注意的是，当mLE值为0.05时，作者的策略显著优于比较方法，验证了额外监督可以有效地指导对比学习的优化方向，使其从具有高度相似标签的数据集中学习有效表示。

Vi-D2 Feature visualization using t-SNE

为了证明采用提出的策略预训练的ViLReF可以有效捕获视网膜图像中的判别性特征并具有强大的泛化能力，作者使用t-SNE方法在ODIR, REFUGE和FIVES数据集上可视化多类聚类，如图5所示。可以观察到，ViLReF有效地将不同疾病属于的视网膜图像分到不同的簇。尽管由于图像结构和高内容连续性的一致性，视网膜图像特征比自然图像特征更具同质性，但ViLReF在下游任务上仍能取得良好的分类结果。

Comparison with State-of-the-art Models

在本节中，作者将作者的模型与在各种数据领域预训练的最新状态基础模型进行性能比较：

FLAIR [35] 是通过运用专家知识从96个不同分布的284,660个视网膜图像（包括37个数据集）预训练的。诊断报告是通过运用专家知识对标签进行合成。
KeepFIT [36] 采用多模态数据集MM-Retinal（包含色眼底摄影（CFP）和来自4本专业眼底图谱书的图像-文本对），以利用专家知识增强表示学习。作者使用其CFP版本进行评估。
RETFound [14] 包含两个版本的数据集：一个是通过 Mask 自编码器预训练的，在904,170张CFP图像上进行训练，另一个在736,442张光学相干断层扫描（OCT）图像上进行训练。作者使用其CFP版本进行评估。
RET-CLIP [29] 是预训练在包括193,865名患者的视网膜图像-文本数据集上，分别在左右眼和患者 Level 上优化特征提取。

Vi-F1 Results on fully fine-tuned classification

作者在测试数据集上对比了ViLReF和目前最先进的视网膜基础模型（ fully fine-tuned classification performance）。为了与现有模型进行公平且充足的对比，作者还使用ResNet50 [55]作为图像编码器训练了一个版本的ViLReF。结果如表7 所示。FLAIR 采用 CLIP 策略预训练，这容易产生假阴性。此外，FLAIR 预训练的数据集是使用基于标签的合成文本报告，这在临床多样性方面存在不足。此外，多个小型公共数据集的组合在数据质量方面表现不佳，限制了模型的性能。由于 KeepFIT 中的专家知识被整合到了 FLAIR 使用的前缀数据集中，因此实现了更好的总体性能。然而，RETFound 的性能并不令人满意，因为它采用 MAE 策略预训练。由于 RFMiD 上的 ViT 版本（预训练为高质量、大规模的视网膜图像文本数据集）的学习表示在单目和双目 Level 上创新，实现了更高的性能，但是它无法减轻假阴性样本的影响。

作者的 ViLReF 展示了压倒性的高完全微调分类性能，超越了目前最先进的视网膜基础模型。具体而言，ResNet50 版本在 ODIR 数据集上实现了 73.69% 的 mAP，88.18% 的 AUC，以及在 MESSIDOR 数据集上实现了 68.89% 的 mAP，分别比第二名的 ResNet50-based KeepFIT 快了 14.33%，7.99% 和 10.54%。VT 版本在 RFMiD 上的 mAP 为 66.17%，比第二名的 ViT-based RET-CLIP 高了 4.78%。这两个版本在相同的视觉架构下都远远优于其他最先进的模型。

Iv-D2 Results on fully fine-tuned lesion segmentation

作者在IDRiD，视网膜病变和FGADR数据集上评估了全量微调的出血，软渗出和硬渗出的分割性能。为了使用相同的分割解码头进行公平的比较，作者使用ViLReF的ResNet50版本与CN-CLIP，FLAIR和KeepFIT的视觉编码器进行比较，这些模型也使用了ResNet50。实验结果如表8所示，涵盖了在IDRiD，视网膜病变和FGADR数据集上的三种病变类型的分割性能。可以观察到，使用ViLReF的视觉编码器总体上增强了分割性能。DSC和IoU分数超过了或与最先进的视网膜基础模型相媲美。结果表明，ViLReF学习的表示具有高质量，并具有很强的泛化能力。

V Conclusion

在这项工作中，作者提出了一种模型预训练方法“ViLReF”，该模型基于451,956对配对视网膜图像-诊断文本报告数据进行了训练。

借鉴专家知识来指导标签提取，使得模型能够捕捉到视网膜图像中微妙的但具有临床意义的视觉模式。作者提出了一种新的权重大小相似耦合损失函数，即，用于动态地调整在特征空间中推动样本对之间的间距。

此外，作者还利用了一个具有动态记忆队列的批量扩展模块，以减轻消除虚假负样本所引起的等效批量大小减少。与最先进的 Baseline 模型相比，作者提出的ViLReF展示了更优越的表示学习性能，并在各种下游任务上取得了更好的结果。

参考

[1].ViLReF: A Chinese Vision-Language.

性能队列基础模型数据

0 人点赞