提升CLIP性能，IntCoOp联合学习在零样本学习中的优势！

图像文本对比模型，如CLIP，学习可迁移且健壮的表示，以便在零样本转移至各种下游任务时使用。然而，为了获得强大的下游性能，需要精心设计提示，这可能是项繁琐的工程任务。为了解决手动提示工程的问题，作者使用了提示调整技术，通过利用训练数据中的信息学习一组上下文向量。尽管这些方法有效，现有的提示调整框架通常缺乏可解释性，从而限制了它们理解图像的组成性质的能力。在这项工作中，作者首先指出在手动提示设计中融入组成属性（例如，一个“绿色”的树蛙）可以显著提高图像文本对齐分数。基于这一观察，作者提出了一种新颖且可解释的提示调整方法，名为IntCoOp，该方法在学习提示调整时联合对齐属性级的归纳偏置和类别嵌入。为了评估作者的方法的有效性，作者在少量样本学习设置中，对两个具有代表性的任务进行了IntCoOp评估：对新型类别的泛化和未见过的领域偏移。通过对CLIP上的10个下游数据集进行大量实验，作者发现引入属性级的归纳偏置相比于现有最佳的提示调整框架，能带来更优的性能。值得注意的是，在16样本设置中，IntCoOp在10个不同数据集上的平均性能比CoOp提高了。

1 Introduction

近年来，在视觉语言模型领域取得了重大进展，例如CLIP、Flamingo 、ALIGN 和CoCa。这些模型通过结合两个基本组成部分，在获取可迁移且鲁棒的图像表示方面取得了卓越成就：

（i）大规模的配对图像文本数据集，从40亿到200亿图像文本对；

（ii）对比目标，将图像和文本嵌入对齐到共同的子空间中。利用这些成分，视觉语言模型在零样本分类、图像文本检索以及对分布变化的鲁棒性方面取得了强大的性能。对于所有这些任务，如CLIP这样的对比模型使零样本推理成为可能：给定一个图像和一个文本提示集，通过最大化和之间的图像文本相似性，识别出最相关的文本提示。

将图像文本对比模型适应于下游任务是复杂的。要在图像文本对比模型上获得最佳性能，需要手动创建特定于领域的提示，这个过程需要大量的领域知识，非常具有挑战性且耗时。即使进行了大量的提示工程，也不能确保设计的提示真正是最优的。为了解决这个问题，近期的研究转向了提示调整技术，借鉴了来自NLP领域的概念，并将其应用于像CLIP这样的视觉语言模型，以在下游任务上获得良好的图像识别性能。然而，这些框架通常缺乏可解释性，结果模型难以理解图像的组成。

在这项研究中，作者通过在学习过程中将属性级信息提取并嵌入到提示调整框架中来解决这个挑战。作者将“属性”定义为与图像相关且包含其语义本质的可解释概念。尽管根据特定下游领域的需要，手工制作的提示可能在特性上有所不同，但作者的分析揭示了一个值得注意的趋势。作者观察到，包含描述图像中目标的属性信息的提示在CLIP等对比模型中导致了增强的图像文本对齐分数。例如，如图1所示，作者可以看到包含“绿色”树蛙等组合属性提示的图像文本对齐分数高于缺乏此类描述符的提示。

基于这些发现，作者提出了一个名为的可解释提示调整方法，它将属性信息纳入提示调整过程，从而生成更具可解释性的提示。尽管人们最初可能会考虑利用现成的图像字幕模型来生成属性标签，但在推理过程中没有类标签时，这种方法变得不可行。因此，为图像生成属性描述成为一个“非平凡的任务”。为了减轻这个挑战，作者训练了一个紧凑的超网络，负责预测对应于属性描述符的嵌入。

作者在一系列多样化的下游数据集上测试了作者的提示调整方法，以测试对新类别的一般化能力以及对分布变化的鲁棒性。在第5节中，作者展示了作者的方法在分布变化、领域泛化和小样本学习方面的鲁棒性有所提高。值得注意的是，在领域泛化设置中，在4个不同领域的平均性能上超过了PLOT（Chen et al.，2023）。总之，作者的研究为在提示调整过程中整合属性 Level 的归纳偏置提供了有力的实证支持。

总的来说，作者的论文做出了以下主要贡献：

作者引入了一种新颖的提示调整方法，名为，它在训练过程中同时将对属性 Level 的归纳偏置和类嵌入对齐，从而促进生成可解释的提示。
作者设计了一个高效的跨注意力机制，以将图像信息与可学习的提示标记无缝整合。
作者在一系列任务上进行了全面实验，包括对未见类别的一般化能力以及分布变化，展示了的有效性。特别是，在16次射击设置中，在10个不同数据集上的平均性能上超过了最先进的方法LFA（Ouali et al.，2023）。

2 Related Works

预训练视觉-语言模型。 近期研究（Radford et al.，2021；Yu et al.，2022）表明，利用语言训练图像编码器可以带来强劲的下游性能，特别是在鲁棒性和小样本学习方面。这些视觉-语言模型通常在大量的图像-文本对上进行预训练，使用对比性目标将图像和文本表示对齐到共同的子空间中。CLIP（Radford et al.，2021）和ALIGN（Jia et al.，2021）仅使用对比性目标来对齐图像-文本嵌入。CoCa（Yu et al.，2022）结合对比性目标和标题损失来进一步改进图像表示。例如，CLIP在约40亿图像-文本对上进行预训练，而ALIGN在更大的约100亿图像-文本对上进行预训练。近期， Mask 视觉-语言目标Kwon et al.（2023）也产生了强劲的图像-文本表示。

然而，在所有这些视觉-语言模型中，推理需要手动整理提示以提取最佳性能，这可能是一项繁琐的工程任务。为了缓解这个问题，近期研究转向了提示调整技术来自动学习特定领域的提示。

提示调整。 给定一组文本指令和一幅图像，现有的视觉-语言模型通过选择图像和文本嵌入之间相似度最大的文本指令来做出决策。

这一领域的近期进展，例如CoOp Zhou et al.等方法，已经从手动设计的提示转向通过微调可学习向量来自动学习提示，这些向量与目标领域的图像-文本对相关。CoOp微调CLIP以优化文本编码器输入层中的一组可学习标记。CoCoOp通过在提示学习过程中结合条件图像信息来增强CoOp。VPT通过微调目标在每个给定编码器的层中学习标记。KgCoOp引入了一个正则化器来约束提示调整过程，使得学习到的提示表示不会与手动制作的提示有显著偏离。ProGrad利用提示梯度微调可学习标记，以保留视觉-语言模型中的先前知识。PLOT应用最优传输来匹配视觉和文本模态，以生成具有区分性和视觉对齐的局部文本提示标记。有关提示调整框架的综合调查，请参阅Liu et al.（2024）。总的来说，现有的研究都没有旨在理解在提示调整过程中增强某些归纳偏置是否有益。

作者的工作IntCoO**p特别针对这个问题，并显示在提示调整过程中结合组合属性确实对下游任务有益。

3 Preliminaries

对比语言-图像预训练（CLIP）Radford等人（2021年）是一种在大量数据集上训练的视觉-语言模型，该数据集包含4亿图像-文本标注对，使用对比损失进行训练。CLIP主要由两个主要组成部分构成：

(1) 视觉编码器 包括一个ViT Dosovitskiy等人（2020年）模型，它接收一个图像作为输入，并在潜在空间中输出视觉嵌入。视觉编码器由个 Transformer 块组成。首先，输入图像被分割成个固定大小的图像块，这些图像块被投影成块嵌入，其中是图像编码器的恒定潜在向量大小。块嵌入与可学习的类别标记一起输入到第个 Transformer 块，并顺序通过个 Transformer 块处理：

为了获得最终的图像表示，最后一个 Transformer 层的类别标记通过一个线性投影层投射到一个共同的图像-文本潜在嵌入空间。

其中是图像-文本潜在嵌入空间的恒定向量大小。

(2) 文本编码器 是一个基于Transformer的模型，它将输入的文本标题映射为文本嵌入。

对于由个类别组成的下游数据集进行零样本推理，这些类别的名称为，CLIP使用手工制作的提示来生成文本类别嵌入。具体来说，给定一个手工制作的提示模板 "A photo of a "，让表示对应于第个类别的提示 "A photo of a " 的序列嵌入。给定一个输入图像，输出概率由以下公式给出：

其中表示余弦相似度，是温度系数。

上下文优化（CoOp）Zhou等人（2022年） 为每个下游数据集在CLIP中设计手工提示是一项繁琐且耗时的任务。为了减轻提示工程的问题，CoOp Zhou等人（2022年）提出直接从数据中学习提示，通过将手工提示替换为包含个可调整向量的上下文向量。设上下文向量为，其中代表一个维向量1。与手工制作的提示模板不同，可调整的提示现在设计为。为了允许交换从数据中学习的信息，上下文向量对所有类别都是通用的。最后，通过最小化 GT 标签和预测标签之间的交叉熵损失来学习上下文向量，如下所示：

其中，表示图像的真实标签，表示类别的可调整提示。请注意，在训练IntCoOp期间，CLIP中的视觉和文本编码器完全被冻结，优化框架只更新上下文向量。

4 IntCoOp: Interpretability-Aware Prompt Tuning

在本节中，作者详细介绍了作者提出的提示调整方法IntCoOp。在4.1节中，作者详细阐述了从给定图像中提取属性信息的过程。接下来，在4.2节中，作者进一步深入探讨生成图像条件提示的过程。最后，在4.4节中，作者概述了整个训练框架，展示了将所有组件集成到训练流程中。与过去的上下文优化方法Zhou等人（2022）类似，IntCoOp也可以轻松应用于广泛的CLIP-like视觉-语言模型家族。

Learning Interpretable Image Concepts

获取属性级监督。给定一个输入图像，作者的目标是提取一个可解释的属性（用表示），该属性准确地描述了图像。例如，对于图1(b)中的“树蛙”图像，作者可以定义属性为“绿色”。然而，标准的图像识别数据集，如Imagenet Deng等人（2009年）只提供目标类别的真实标签，并不包含属性级监督。作者通过使用BLIP-2 Li等人（2023年）基于ViT-G FlanT5XXL的VQA模型为训练集中的每张图像生成属性标签（）来克服这个问题。整个框架在图1(b)中以视觉形式表示。更代表性的例子及其详细描述和可视化请参见附录B。

在学习过程中提取属性信息。在推理过程中，由于测试图像没有类标签，直接利用现成的字幕模型Li等人（2023年）是不可行的。为了绕过这个限制，作者 Proposal 训练一个网络以学习上下文相关的属性（见图2）。具体来说，作者设计了一个属性提取网络，它以CLIP视觉编码器的图像嵌入为输入，输出一个代表属性嵌入的维向量。这个网络使用从图1(b)中的框架获得的受监督的属性标签进行训练。

设计属性提取器。需要注意的是，属性提取网络直接从图像嵌入中学习可解释的概念。因此，嵌入向量必须有效地编码关于图像组合性的信息，以便正确训练网络。在表6中，作者显示CLIP冻结视觉编码器的嵌入不足以本质地捕捉属性信息。由于在少样本设置中，每个类别可用的样本数量有限，这使得属性提取器的训练不理想，这一挑战进一步加剧。为了生成更丰富、更有信息量的视觉表示，作者在图像编码器的每个变换层上附加一组可学习的参数，直至深度(Jia et al., 2022; Khattak et al., 2023)。

在第7节中，作者展示这种改进的设计选择在下游任务上能带来更好的性能。最后，生成的属性标签可用于通过最小化以下损失来训练网络：

其中表示范数，表示属性的维标记嵌入。在附录F中，基于消融研究，作者发现设置可以得到最佳性能。在本文中，作者将网络实例化为具有ReLU激活的两层神经网络。

Instance-Conditional Prompts

在本节中，作者进一步深入了解提示是如何生成的。回顾第3节，对于CoOp（Zhou等人，2022b），所有类别共享上下文向量，可调整的提示被设计为。在表6中，作者展示了在所有图像之间共享上下文向量会导致对新颖类别泛化的次优化。为了解决这个问题，作者选择了一个涉及生成实例条件上下文标记的策略。然而，与直接将图像嵌入添加到上下文标记（Zhou等人，2022a）不同，作者采用了一个多头注意力模块。这个模块通过关注图像嵌入生成上下文标记。给定一个输入图像，图像关注上下向量由以下公式给出：

其中表示上下文向量，而MultiHead表示一个多头注意力模块。注意，实例条件上下文向量与具有相同的形状。

最后，作者可以通过将属性提取器的输出嵌入到实例条件上下文向量中，为每个类别生成提示。令表示融合属性的提示，定义为：

与之前的工作（Zhou等人，2022a）不同，作者的基于跨注意力的图像条件机制为上下文向量中的单一位置学习了各种图像嵌入点的加权总和，从而提供了更强的条件信号。在第7节中，作者实证展示了作者的条件机制更适合于CLIP中的少样本微调。

Regularizing the Prompts

姚等人（2023年）的分析表明，如果没有正则化，上下文向量可能会严重过拟合训练数据。这可能导致在推理期间对未见类别的表现不佳。为了缓解这一问题，他们提出了增加一个知识引导的损失，旨在最小化学习到的提示与手工制作的模板“一张的照片”之间的差异。在本文中，作者也增加了一个额外的损失项以正则化学习到的提示。然而，作者不是简单地使用手工制作的模板，而是为每张图像生成了包含组合信息的一组文本提示。给定一个图像，令表示嵌入在图像中的可解释概念的个综合生成的提示模板池。在本研究中，作者选择了Radford等人（2021年）建议的80个多样化的文本提示作为。基于此，作者定义了正则化损失为：

其中表示图像的真实标签，是CLIP文本编码器，是真实类别的可学习提示。基于附录F中的消融研究，作者设置。

Putting it together

令表示一个包含个样本的训练数据集，其中是一幅图像，代表相应的标签。给定这个数据集，作者首先根据第4.1节定义的生成每幅图像的属性标签 ()。注意，为了避免在训练过程中的任何计算开销，作者离线执行此操作。基于前面的讨论，训练损失表述为：

其中

这里表示图像的真实标签，而表示已见类的数量。优化框架旨在通过最小化训练损失来学习最优参数。基于附录F中的消融研究，作者设置和。

5 Experiments

实现细节：在本研究中，除非另有说明，对于所有实验，作者使用了预训练的CLIP（Radford等人，2021）模型，该模型具有ViT-B/16图像编码器。作者用批量大小为4，学习率为0.0025的SGD优化器训练模型50个周期。作者将上下文长度设置为。此外，为了训练IntCoOp，作者在每个 Transformer 层的最深程度处附加了个可学习的视觉标记。作者报告了3个随机种子的平均结果。所有实验都使用附录A中列出的配置运行。代码将在论文接受后公开。

计算效率：在表4（附录）中，作者将IntCoOp与 Baseline 框架（如CoOp（Zhou等人，2022））的训练和推理的计算成本进行了比较。作者观察到，由于实例条件提示生成，IntCoOp的每个周期训练时间相对于CoOp略有增加。然而，作者相信这种训练时间的轻微增加由表1所示的性能显著提升所证明是合理的。在推理过程中，如表4所示，IntCoOp与CoOp相比没有产生任何显著的额外开销。

Base-to-Novel Class Generalization

遵循现有文献（周等人，2022，202，姚等人，2023），为了评估IntCoOp的泛化能力，作者采用了一种零样本设置，该设置涉及将数据集划分为基类和新型类。作者的模型仅在少数样本框架内对基类进行独家训练，并在基类和新型类别上评估其性能。

数据集： 为了评估从基类到新型类的泛化能力，与过去的研究（周等人，2022）一致，作者使用了10个不同的图像分类数据集：ImageNet（邓等人，2009），Caltech101（费费等人，2004），Oxford-Pets（帕尔希等人，2012），StanfordCars（克劳斯等人，2013），Flowers102（尼尔斯巴克和齐斯曼，2008），Food101（博萨德等人，2014），FGVC Aircraft（马吉等人，2013），SUN397（肖等人，2010），UCF101（索莫罗等人，2012），以及EuroSAT（赫尔伯等人，2019）。关于本研究所使用的数据集的详细描述，请参阅表10（附录）。

IntCoOp优于最先进技术。 在表1中，作者将IntCoOp与 Baseline ，例如零样本CLIP以及具有竞争力的提示调整框架（如CoOp（周等人，2022），CoOp（周等人，2022），MaPLe（卡塔克等人，2023），KgCoOp（姚等人，2023），ProGrad（朱等人，2022），LASP（布尔亚特和茨米罗普洛斯，2023），RPO（李等人，2023），DAPT（曹等人，2023），PLOT（陈等人，2023）以及LFA（奥乌利等人，2023））在一组个不同数据集上的基类到新型类的泛化能力进行了比较。作者使用一种少数样本训练方法实现了所有方法，该方法涉及为每个基类随机采样个样本。回想一下，对于这项任务，评估涉及仅在基类上训练模型，并在基类和新型类上评估其性能，这是一个测试模型泛化能力的具有挑战性的场景。作者采用基类和新型类准确性的调和平均值（HM）作为比较的指标。作者的实证发现揭示了两个关键见解：(1)IntCoOp在少数样本性能上始终优于最先进的提示调整技术。此外，当考虑所有10个数据集的平均性能时，IntCoOp比当前最先进技术（奥乌利等人，2023）高出。它还比CoOp（贾等人，2022），一个 Baseline 提示调整框架，高出。(2)IntCoOp的强劲性能特别是在图像具有明确定义属性的数据集上表现明显，例如ImageNet，Flowers102，Oxford-Pets，StanfordCars和Caltech-101。例如，在OxfordPets数据集上，IntCoO将新型类准确性分别比LFA和KgCoOp提高了和。

Domain Generalization

为了评估领域泛化，作者使用了ImageNet（Deng等人，2009）作为源数据集，以及四个其变体作为目标数据集。这些变体包括ImageNetV2（Recht等人，2019），ImageNetSketch（Wang等人，2019），ImageNet-A（Hendrycks等人，2021）和ImageNet-R（Hendrycks等人，2021），这有助于全面检验领域偏移的场景。表2中的结果显示，IntCoOp在所有目标数据集上均表现出色。值得注意的是，与ProGrad和PLOT相比，IntCoOp将平均准确率分别提高了和。这些结果强调了在学习提示中解释性属性的重要性。

在附录中的表9中，作者还评估了在4次射击设置下作者提出方法的泛化能力。在考虑的所有数据集中，IntCoOp在平均性能上超过了所有比较方法。总体而言，作者发现IntCoOp在一系列下游任务上表现出色，包括对新类别泛化的强健性、对分布偏移的鲁棒性以及少样本学习，同时比其他提示调整方法更具解释性。

6 Discussion

在本节中，作者深入探讨了在推理过程中由IntCoOp生成的属性质量。给定一个测试图像及其真实标签，作者首先提取对应的属性嵌入向量。为了评估这个嵌入向量的质量，作者利用BLIP-2模型

生成属性标签。作者评估了两种设置：

（1）首先，为了验证IntCoOp生成的属性质量，在图3中，作者可视化了学习到的属性嵌入向量与BLIP-2生成的标签之间的余弦相似度。在所有数据集中，作者观察到生成的属性嵌入向量与BLIP-2生成的标签之间具有高相似度。这证实了IntCoOp有效地学习了上下文相关且正确的属性信息。

（2）其次，如图3（附录）所示，作者观察到使用学习到的属性嵌入向量制作的提示与原始提示格式 "A photo of " 密切对齐，这从高的余弦相似度可以得到证明。另一方面，缺乏属性信息的提示显示出较低的相似度。这种分析突显了在推理过程中，IntCoOp生成了具有可解释组合信息的提示，从而解释了性能的改进。

学习有意义属性的重要性。 在本节中，作者进一步验证了在训练过程中学习上下文有意义属性的重要性。为了说明这一点，作者在训练集中的每张图像上用不相关的形容词替换BLIP-2模型生成的原始属性标签。具体来说，作者在不同类别之间交换属性标签，并通过仔细的人工监督确保每张图像与一个不相关的形容词配对。例如，在更改后的设置中，图2中标记为“奶酪披萨”的图像被错误地标记为“绿色披萨”，其中“绿色”与图像无关。采用5.1节中描述的实验框架，这种更改在ImageNet-1k数据集上导致HM准确率为63.27%——与使用IntCoOp实现的性能相比下降了11.02%。这一显著的准确度下降突显了在训练过程中学习准确且相关的属性具有关键作用。

7 Ablations on Design Choice

在本节中，作者深入探讨了在作者提出框架中所做设计选择的全盘探索。

关于视觉提示的消融研究。 如第4.1节所示，为了有效增强图像表征，IntCoOp充分利用了深度视觉提示方法。为了证实作者的设计理念，作者按照附录中的表6进行了消融实验。从作者的实证分析中，作者得出了两个关键观察结果：(1) 视觉提示在训练IntCoOp中起着关键作用。具体来说，不使用任何视觉提示进行训练，即使用冻结的CLIP嵌入来训练属性网络，会导致性能明显下降。(2) 与浅层提示策略相比，将视觉标记附加到更深的 Transformer 层可以在平均性能上提供显著的性能提升。

关于实例条件化的消融研究。 为了根据输入图像条件化提示，先前的研究（Zhou等人，2022a）提出了将图像嵌入直接添加到上下文向量中。然而，如第4.2节所详述，作者在IntCoOp的训练中采用多头注意力模块来生成图像条件提示。在附录中的表6中，作者展示了支持利用基于注意力的条件化方法相对于加性条件化重要性的实证结果。具体来说，作者观察到，当使用基于多头注意力的条件化时，平均性能提高了。

8 Conclusion

在作者的论文中，作者最初观察到将相关属性融入提示中可以显著提高CLIP中的图像-文本对齐。

为了实现这种增强，作者提出了一种名为IntCoOp的新技术，该技术将这些属性整合到学习到的提示中。

这种整合是通过利用BLIP-2 Li et al. (2023)模型在少样本数据集上标注属性来实现的。以图像作为条件因素，作者设计了一个负责预测与属性描述符相对应的嵌入的超网络。

同时，作者使用CLIP的对比目标来优化其他上下文向量。

作者在各种数据集上的全面测试强调了IntCoOp在零样本性能上取得的显著提升。

参考

[1].IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning.

框架模型设计数据性能

0 人点赞

提升CLIP性能，IntCoOp联合学习在零样本学习中的优势 ！