本文研究了一种新颖的在线零样本迁移框架,该框架在分类每个图像时按随机顺序到达,且只访问一次以立即获得预测,而无需将其表示存储。 与基础零样本分类相比,该提出的框架在保留在线服务的灵活性的同时,将到达图像的统计信息作为捕获目标数据分布的辅助信息,从而可以帮助提高实际应用的性能。 为解决有效的在线优化挑战,作者首先开发了一种在线标签学习算法来建模目标数据分布。然后,使用提出的在线代理学习方法进一步优化视空间中每个类别的代理,以减小图像和文本之间的模式鸿沟。两种在线策略的收敛性理论上可以得到保证。 结合在线标签学习和代理学习预测的标签以及代理学习,作者提出了在线零样本迁移方法(OnZeta),在Imagenet上达到了78.94%的准确率,而不需要访问整个数据集,同时在对其他13个具有不同视觉编码器的下游任务上的大量实验中,平均实现了超过3%的改进,这展示了作者 Proposal 的有效性。 代码可从https://github.com/idstcv/OnZeta。
1 Introduction
视觉语言预训练最近引起了很多关注,主要是因为在各种下游任务上表现出令人印象深刻的零样本迁移性能。这种期望的性质主要来自将视觉和文本空间对齐。例如,最常用的预训练方法之一,即 CLIP [20],包括针对图像和文本分别学习的视觉编码器和文本编码器。这些编码器通过最小化定义在图像-文本对上的对比损失进行优化。该损失旨在将图像及其相应的文本描述拉在一起,同时将无关的文本或图像推开 [18]。
在视觉和文本空间的对齐之后,出现了一种新的零样本分类范式,将预训练模型的知识转移到各种任务。具体来说,给定目标任务的所有类名,每个类都可以由一个类代理表示,该类代理应用 CLIP 中的文本编码器对应类名。该文本代理也称为文本代理。当图像到达时,其表示由 CLIP 的视觉编码器提取。然后,可以由具有文本代理集合作为参考的 1-NN 分类器进行标签分配。无需任何微调,这种简单的策略在将预训练的 ViT [4] 作为视觉编码器的 ImageNet 上达到了 77.02% 的准确率 [22]。
图1 显示了 proposed 的在线零样本迁移方法 (OnZeta) 的示意图。蓝色和橙色线分别表示在文本和视觉空间中的推理。通过结合在线标签学习和在线代理学习,OnZeta 可以利用文本空间的偏见在线方式减少目标视觉空间的方差。
自从CLIP的成功以来,为了进一步改进迁移性能,已经出现了许多方法从目标任务的不同侧面获取更多的知识信息。首先,如果从目标任务中仅有的几个标记图像,零样本迁移可以被视为少样本学习问题,通过微调标视觉数据学习输入文本提示[31]。其次,如果计算资源太有限,无法进行微调,则将标记数据缓存为一个视觉分类器,直接分类图像[29]。然而,监督信息通常较少,而未监督信息则更易获得。因此,许多努力都用于利用 未标注 图像来增强零样本性能。[23]从一个给定的图像中生成多个增强示例,然后分别学习每个图像的具体文本提示,作为一种少样本学习方式。[19]考虑使用一系列 未标注 图像构建代理,在代理学习中重建视觉代理,即视觉代理。尽管[19]展示了优越的零样本性能,但其使用离线的优化方式。由于隐私问题,在某些实际应用中仍难以汇总或保持一组 未标注 图像。因此,在本工作中,作者研究了一个新型的实用零样本迁移场景,称为在线零样本迁移。具体而言,当流式图像到达如传统零样本学习时,模型必须立即分类图像,而无需进行细化。此后,可以使用类代理进行更新,但到达的图像的表示将无法保持。与[19]可以访问整个 未标注 集合的情况不同,这种在线设置更加具有挑战性,其中只能利用已看到的图像统计进行优化,每个图像只访问一次。此外,[19]中的标准迭代优化方式不适用,而分类每张 未标注 图像的实时服务在实际应用中普遍存在(例如,移动和机器人)。
为了应对在线服务挑战,作者首先考虑探索目标任务的数据分布,以提高从文本代理的预测。请注意,基本的零样本预测专注于单个图像,忽略了整个数据集的分布。为了捕捉整个数据的分布,作者开发了一个在线标签学习算法,以全局方式平衡不同类别的分配。此外,由于文本数据(_即文本代理_)与视觉数据之间存在模式鸿沟,因此作者提出了一种在线代理学习方法,以在线方式在视觉空间中直接获得类代理(_即视觉代理_)。最后,可以将文本空间和视觉空间的预测相结合,以帮助减少视觉空间的学
2 Related Work
CLIP由两个编码器组成,即视觉编码器和文本编码器,它们都可以单独进行优化。在此部分,作者将简要回顾这两个方向的研究工作。
Optimization with Text Encoder
CLIP实验表明,零样本性能在很大程度上取决于生成适当类代理的文本提示,许多方法试图学习每个类别输入文本的最佳提示。Coop [31]将输入文本提示标记为可学习变量,并将其优化为通过有限数量的标记图像进行稀疏学习。CoCoOp [30]进一步包括视觉表示作为提示学习的条件上下文。TPT [23]放宽了标记示例的需求,并针对同一图像的不同增强方式优化了提示学习的一致性。然而,对于实时应用中的在线场景,它需要为每个图像优化64种增强方式,这在计算和内存方面效率低下,使其无法实用性。
Optimization with Vision Encoder
尽管提示学习可以在目标数据上提高性能,但近期的研究表明,优化视觉表示可能更具效果,特别是在少样本学习的情况下[19, 6]。CLIP-Adapter [6]在视觉编码器之后引入了一个额外的 Adapter 网络,并使用少样本学习优化了视觉表示。尽管可以附加一个类似的 Adapter 用于文本编码器,但实证研究表明,优化视觉空间就足以实现迁移学习,并可以比仅具有文本 Adapter 或同时具有视觉和文本 Adapter 的版本实现更好的性能。 [27]表明,直接使用少样本学习优化视觉分类器的性能可以超过CoOp。最近,[19]的分析表明,视觉分类的最优类代理位于视觉空间。为减小模式鸿沟,[19]提出了代理学习,旨在为视觉空间中的每个类别学习类代理。然而,它需要一组 未标注 数据并需要迭代学习代理。在本工作中,作者旨在在线方式下,使用所学标签优化视觉空间中的类代理,这对在线实时应用更具适用性。
3 Online Zero-shot Transfer
Zero-shot Transfer in CLIP
给定一组图像-文本对 ,其中 表示图像, 是对应的文本,例如类别名称或描述性文本。CLIP 同时训练视觉和文本编码器以对齐视觉子空间及其相应的文本子空间。令 和 分别表示视觉编码器和解码器。图像和文本的表示可以提取为 和 。
在预训练两个编码器后,可以实现零样本分类,通过最近邻(1-NN)分类器。具体而言,给定目标任务类别名称,将第 类文本的代理 表示为 "一个 {class name} 的照片"。然后,将图像 分类为
虽然传统的零样本范例展示了令人印象深刻的迁移性能,但从目标任务中获得的信息并未充分探索。最近的工作表明,仅有一组无标签的目标数据,零样本性能可以显著提高[19]。在本文中,作者进一步放宽对无标签目标数据的要求,研究一个新型的在线零样本迁移场景,其中每个无标签图像以在线方式且无需存储的方式到达。
Online Label Learning
首先,作者提出了一种在线标签学习方法,利用到到达的图像信息,以捕获整个集上的类别分布。
对于第 个图像集 的文本代理 ,可以计算出类别的预测分布 :
其中 是 CLIP 优化的温度。
如果整个图像集可用,可以通过考虑类别分布来优化标签。令 为可学习的标签,优化问题可转化为具有 个类别的情况:
其中 ,, 表示简单x, 。这个约束限制了每个类别的最小大小,以防止塌陷, 是不同类之间分配的平衡比例。 表示各个类别具有相同数量的图像,而 保留了原零样本分类的预测 。
在所有示例可用的情况下,问题可以有效求解,但优化在线目标函数是具有挑战性的。为解决在线问题,作者引入了 Lagrange 对偶变量 来表示约束,并将问题重写为:
其中 。约束限制了每个类别的最小大小,以防止塌陷, 是不同类之间分配的平衡比例。 表示各个类别具有相同数量的图像,而 保留了原零样本分类的预测 。
当第i个示例到达进行预测时,固定对偶变量的子问题变为:
其中表示第(i-1)个到达的图像所使用的对偶变量。
幸运的是,这个问题有封闭形式的解如下。
Proposition 1:_问题的等式5的最优解为
Proof. 这是由K.K.T.条件 [2]得出的。
Remark Proposition 1表明对偶变量有助于在类别之间平衡分配。当(没有优化)时,它退化为CLIP的原始预测。
在图像预测之后,对偶变量可以通过梯度上升进行更新,如:
其中是对偶变量的学习率。当被初始化为0且时,对偶变量不会更新,这导致原始预测。
作者的在线标签学习(OnLab)算法总结在算法1中。预测将通过封闭形式的解获得,对偶变量的更新也是高效的,这使得所提出的方法适用于实时应用。
除了效率之外,OnLab的有效性可以理论保证以下定理。详细的证明可以在附录中找到。
Theorem 1:_通过让在等式4中以步长运行,其中是一个常数,保证了收敛性_
其中是折扣因子,是连续的凸函数,是数据分布的均值,是与数据分布相关的实数常数。
这个定理表明,作者的在线标签学习算法是收敛的。
Online Proxy Learning
在优化标签后,作者认为需要重新构建视觉空间中的类概率代理,以减少与文本概率代理之间的模态差距,如[19]中所提出的那样。给定所有图像,视觉概率代理学习可以被视作一个优化问题
其中为在线标签学习的输出,
表示第类的可学习视觉代理。 应为大于 的正数,以在视觉空间中得到类代理,如[19]中所述。
当以在线方式解决此问题,每个迭代周期只能收到一个示例。因此,视觉代理将根据第个示例的梯度进行更新,如
其中将更新后的视觉代理投影为单位范数。注意,损失函数在上是凸的,且可以由在线学习理论[7]保证收敛。
算法2在线零样本迁移(OnZeta)
定理2.2: 通过更新如等式11所示的并设置,其中为常数,则后悔可以被有界表示为
由于图片以随机顺序出现,并且只有单一图像将用于更新,学习过程中的方差可能很大,特别是对于前几个迭代。与离线优化[19]不相同,其中性能在最终迭代后评估,在线学习必须累积来自不同时间戳的预测准确性。因此,作者考虑将在线标记学习中得到的文本空间的伪标签相结合,以稳定预测。
对于第个示例,假设是视觉空间的真值分布。由于主要来自文本代理,它是从文本空间的有偏估计。而由视觉代理估计,由于在线更新,变差可以很大。因此,这些预测可以混合以权衡文本空间的偏差和视觉空间的变差。具体地,令
则作者有
为了简化,作者假设是针对的无偏估计,即。则
为了最小化近似误差,折衷比有最优解,即
作者发现偏差可以被视为常数,但当学习时,方差将减小,这意味着来自不同空间的伪标签的组合函数是单调递增的。根据的分析,可以开发各种重函数,而对于第次迭代,作者实证地设置
其中是一个常数。组合策略在视觉代理未充分训练的情况下有助于在线迁移。
通过将在线标签学习和在线代理学习相结合,作者提出的在线零样本迁移(OnZeta)算法可以总结为Alg. 2。所提出的所有操作都可以在不需要显著增加传统零样本迁移成本的情况下高效计算。
4 Experiments
为了评估所提出的方法,作者在14个不同的下游任务上进行实验。考虑到文本提示对于获得零样本迁移的适当文本代理至关重要,作者遵循[20]中建议的将一组7个文本提示(包括基准方法和作者的方法)作为集合来生成文本代理的共识。两个变量和视觉代理的初始学习率分别设置为和。学习率将根据的顺序进行衰减,即和,其中表示接收到的图像顺序。 未标注 的图像将按随机顺序到达。对于温度,作者固定,这是CLIP优化后的值, [19]。所有实验都在一个V100 GPU上实现。
Ablation Study
作者方法的主要参数是类分配比 和伪标签组合比 。在本小节中,作者将研究这些参数与在线零样本迁移的设置相结合的影响。在CLIP中,使用ResNet-50 [8]作为视觉编码器进行ImageNet上的消融实验。
4.1.1 Effect of
α是捕捉整个数据集分布的比例,如公式3所示。而纯零样本转移方法忽略了到达的示例的边信息。所提出的在线标签学习可以利用α利用分布信息。由于α∈[0,1],作者在{0,0.4,0.6,0.8,1}范围内变化α,并总结了结果在表1中。
首先,根据作者的分析,α=0将不更新双重变量,并暗示 Baseline 零样本转移的准确率,如CLIP中一样。然后,随着α的增加,可以一致地提高 Baseline 的准确率,这显示了在线标签学习的效力。此外,随着α的增加,最小类的数量也增加,这表明作者的仅在线标签学习的OnLab方法可以有效地调整类分配。
为了进一步研究由不同α导出的数据分布,作者在图3中比较了所有1,000个类的大小。很明显,所提出的方法能够在线方式平衡分布。请注意,即使α=1,得到的分布也不是完全平衡的,这来自在线场景中的近似误差,如3.1节分析的那样。作者发现作者的方法对α不敏感,并在以下实验中如果未指定,固定α=1。
4.2.2 Effect of
在在线零样本迁移学习中,利用文本和视觉空间的预测结果,一种结合策略(如公式17中的β)可以在偏差和方差之间进行权衡。表2报告了不同β下的性能。
当 时,只采用来自在线标签学习的标签(即 OnLab)进行预测。如果将来自视觉代理的标签进行混合,准确性将提高。混合预测在β为0.8时比 OnLab 提高了0.54%,而在 Baseline CLIP 上取得了2.18%的改进。当 时,在数据流结束时排除文本空间的标签会使性能退化,因为视觉空间的大方差。这一现象说明了在线学习中的挑战:视觉代理可能无法在与到达的图像数量有限的情况下很好地学习,而文本代理的伪标签可以帮助减少方差。
根据作者在第3.3节中的分析,对于提出的在线学习场景,偏差-方差的权衡动态比例更为有效。为了验证这一主张,作者将动态比例与固定比例进行比较,请参阅表3。固定 在[0,1]之间以0.1的步长进行搜索,并报告最佳结果。
尽管固定 仍然可以提高在线标签学习的性能,但单调递增的 更好地捕捉了训练动态,并显示了0.22%的额外改进。这证实了作者对偏差-方变的权衡分析。
4.2.2 Effect of iterations in optimization
作者的方法需要学习双变量和一个视觉代理,这些参数在线学习的前阶段可能不易学习得很好。为了研究在线学习中迭代的影響,作者在表4中报告了在一个epoch中不同迭代的累积准确性。
首先,作者可以观察到,即使进行5000次迭代进行学习,针对超过1000个类别的准确性也已经优于 Baseline 。随着更多的图像的到来,性能稳步提升。这是因为双变量和视觉代理的收敛率被证明为,正如Theorems 1-2所示。这意味着,在有限的迭代次数下,这些变量可以达到一个合理的性能,而获取最优解仍然具有挑战,正如接下来的实验所示。
4.2.3 Effect of epochs in optimization
在提出的在线零示例转移问题中,当示例到达时,所有示例只能访问一次。这种设置在实际应用中普遍存在,但对优化极具挑战性。本ablation实验旨在研究示例可以多次访问时的性能提升情况。
表4:在不同迭代次数下的ImageNet准确率(%)对比。 具体来说,作者在多个数据集周期的数据上运行所提出的算法,其中每个周期内的图像按照随机顺序到达。对于多个数据集周期,最后一个周期的预测结果用于评估。表5对比了在线场景下单周期和多个周期的性能。
首先,作者可以观察到,增加一个周期可以提升OnZeta的性能0.74%,这展示了在线零示例转移的挑战性。随着周期数的增加,性能可以进一步提高,当学习5个周期时,性能达到63.46%。结果接近于访问所有数据集的性能,在访问2000个周期后,获得了63.74%的准确率。OnZeta的竞争力证实了所提出的在线学习算法的有效性。更多实验见附录。
Comparison on ImageNet
在消融研究之后,作者将作者的OnZeta方法与ImageNet上最先进的方法进行了比较。在CLIP中采用了多个视觉编码器进行评估,包括ResNet-50,ViT-B/32,ViT-B/16,ViT-L/14和ViT-L/14@336。考虑到作者在线设置中的图像以随机顺序出现,所提出的方法被重复了5次,并报告了平均结果进行比较。作者注意到标准差相当小,并且通过不同运行中报告了最佳结果星号(*)。在作者的方法中,不同视觉编码器共享相同的参数。表6总结了比较,其中InMaP的结果以灰色表示,因为它在每个迭代中都利用了整个未标注数据集。
首先,通过仅使用所提出的在线标签学习组件捕获整个分布,OnZeta已经为所有视觉编码器提供了大约1%的改进,超过了 Baseline 。这表明已到达图像的辅助信息对改进零样本迁移有益。通过学习视觉代理并组合文本和视觉空间中的预测,OnZeta在OnZeta的基础上获得了大约1%的额外改进,表明在线代理学习对零样本分类是补充的。此外,OnZeta在大模型中获得了更高的改进,显示出其在大模型中的潜力。
然后,作者可以观察到提示学习方法TPT通过人工文本提示的集成超出了 Baseline ,这表明零样本迁移对适当的提示具有重要的影响。然而,OnZeta在ResNet-50上的性能比TPT高出1.76%,在ViT-B/16上的性能比TPT高出2.01%。这是因为作者在视觉空间中学习了一个更好的类代理,这有助于减少模态差距,并比在文本空间中优化文本提示更有效。这个观察与[19]中的分析一致。此外,与可以访问整个未标注集的InMaP相比,OnZeta仅在使用不同视觉编码器时差约1%。正如消融研究中分析的那样,只访问一次每个示例的在线学习比在整个集上多次迭代的全离线方法更具挑战性。然而,在线学习对于实际应用是实用的。最后,所有视觉编码器在实验中都共享相同的参数。这意味着作者的方法OnZeta对视觉编码器选择的敏感性较小,并且适用于不同的配置。
Comparison on Other 13 Downstream Tasks
在ImageNet的基础上,作者还在其他13个下游任务上进行了实验,以评估作者的方法性能。这些任务所使用的基准数据集包括了零样本转化的数据集,例如Aircraft [15]、Caltech101 [5]、Stanford Cars [11]、CIFAR-10 [12]、CIFAR-100 [12]、CUB200-2011 [25]、Describable Textures Dataset (DTD) [3]、EuroSAT [9]、Flowers [16]、Food101 [1]、Oxford-IIIT Pet (Pets) [17]、Sun397 [28] 和 UCF101 [24]。这些不同数据集涉及到了多种下游任务,例如低分辨率图像分类、细粒度视觉分类(FGVC)、卫星图像下的土地覆盖分类、场景分类、纹理识别等。这些任务包含的图像比ImageNet少,从而增加了作者在线迁移学习任务的挑战,在线迁移学习的收敛速率为。因此,作者将从0.8降至0.4,以利用文本空间的标签。对于基准在某些任务上已经达到满意性能的数据集(例如,使用ViT的Caltech101和CIFAR-10),作者可以跳过在线学习标签,令,而能带来轻微的改进。其余数据集的其余参数与ImageNet相同。作者将ResNet-50和ViT-B/16两个不同的视觉编码器应用于评估。作者的方法在不同随机试验中的平均性能如表7所示。
这些下游任务的比较汇总于表7。在这些下游任务上,与ImageNet相同的现象也可以观察到。具体而言,零样本学习,即OnZeta,已经在基准上改善了性能,在ResNet上的改进为3.12%,而在ViT上的改进为2.58%。与基准相比,作者的方法仅利用传递图像,并且不会在每个到达的图像上存储其表示,这保持了零样本迁移学习的灵活性,并在在线方式捕捉整个数据集的分布。此外,从文本空间的伪标签学习视觉代理进一步提高了使用不同视觉编码器时性能,证明了直接在目标视觉空间中学习类代理的有效性。此外,OnZeta在10个数据集(TPT原论文的仅有10个任务)中的9个数据集(TPT的原始论文中的数据集)上优于TPT(仅用于图像的文本提示进行多模态增强的训练)。与TPT相比,OnZeta只需要正向传播以提取图像表示,更高效,并能用于在线部署。通过比较作者提出的最佳性能(例如,表格中用*表示的性能)与平均性能,作者可以发现13个数据集上的平均差异仅为约0.3%。虽然图像以随机顺序到达,但该方法的性能可以理论上得到保证,如表1和表2中所示,对输入图像的顺序具有强大的鲁棒性。最后,大多数数据集共享相同的参数,这意味着OnZeta对超参数不敏感,适用于不同的任务。
5 Conclusion
尽管CLIP展示了令人瞩目的零样本迁移性能,但目标数据的信息并未得到充分利用。
在本工作中,作者研究了一个在线零样本场景,其中在每个迭代中随机接收一张图像,并要求模型在不存储其表示的情况下预测其标签。
通过在线方式捕获整体标签分布并不断优化类代理,作者的方法OnZeta在具有不同视觉编码器的多种下游任务上,对比纯零样本迁移有了显著提升。此外,所提出的方法的操作可以实现高效实时应用。
探索更有效的算法用于解决挑战性的在线零样本迁移,将成为作者未来的工作。
参考
[1].Online Zero-Shot Classification with CLIP.