CLIPCleaner 利用视觉语言模型解决噪声标签学习的自我确认偏差问题！

在机器学习领域，噪声标签学习（ Learning with Noisy Labels，简称LNL）已成为一个具有挑战性的问题。一些在干净样本选择中广泛使用的策略，例如“较小损失”和“高风险类别”，可能会受到所谓的“自我确认”偏差的影响。这种偏差源于训练中的模型至少部分是基于噪声标签的。此外，在分类情况下，还出现了一个额外的挑战，因为一些标签噪声位于视觉上非常相似的类别之间（难以区分的噪声）。本文通过提出一种利用CLIP（一个强大的视觉语言模型）构建零样本分类器的( CLIPCleaner )方法，来解决这些问题。CLIP方法的主要优势在于，样本选择与训练中的模型相分离，并且由于CLIP的训练方式，样本选择能够意识到类之间的语义和视觉相似性。作者提供了CLIP相对于传统预训练模型的理论依据和实证证据。与当前的方法相比， CLIPCleaner 提供了简单、一次性的方法，在基准数据集上实现具有竞争力的或更好的性能。据作者所知，这是首次使用视觉语言模型进行样本选择以解决学习噪声标签（LNL）问题，突显了该领域中的潜力。

1 Introduction

最近，基于样本选择的方法已成为识别干净标签的样本的主导模式。其中最常用的样本选择策略是小损失机制，因为模型在训练过程中倾向于提前适配干净样本而不是噪声样本，这导致了干净样本的相对较小损失。然后，大多数方法主要集中在进一步改进这样的样本选择机制。这包括小损失策略的不同变体、利用基于样本特征空间的小样本近邻或图模型进行样本选择。然而，这些方法天生受到标签噪声的影响，因为损失或用于样本选择的特征是从正在训练的模型（即在线训练模型）中提取的（即内训练模型）-这导致了臭名昭著的“自我确认”偏差。一些方法（Li等人，2019年；2019年）试图通过模型共同训练来缓解“自我确认”偏差，但这种方法引入了额外的计算开销。此外，这些方法仅依靠图像内的视觉信息，因此很难处理“硬噪声”，即具有高视觉相似度的类别间的标签错误。

针对上述问题，作者提出了一个名为 CLIPCLEaner 的新颖方法，该方法利用流行的视觉语言模型 CLIP （Li等人，2019）进行样本选择。具体而言，作者提出使用一个基于 CLIP 的零样本分类器，该分类器使用自动生成的大型语言模型来生成描述性分类提示进行样本选择。由于 CLIP 接受了大量视觉语言对，因此导致了一种具有两个优点的样本选择方案：1. 样本选择意识到类之间的视觉和语义相似性，因此可以弥补仅依靠视觉信息进行样本选择的偏差（图1）；2. 样本选择与训练中的模型无关，因此对噪声标签和“自我确认”偏差免疫。据作者所知，作者首次采用了大规模的视觉语言模型，特别是利用其语言模式，进行样本选择。

此外，作者引入了一个非常简单的半监督学习方法 MixFix ，该方法专为没有常见的高级模块（例如，对抗训练或多任务训练）的噪声数据集而定制。所提出的半监督方法逐渐引入更多的干净样本并重新标记噪声样本以扩展现初选的干净子集（由 CLIPcleaner 选出）。作者注意到在所提出的方案中，训练中的模型，即最终的分类器，与用于样本选择的 VL 模型不同。更具体地说，与常见的迁移学习技术（例如模型微调（Li等人，2019）、知识蒸馏（Li等人，2019）和基于提示的学习（Li等人，2019; Li等人，2019））不同，作者坚持仅使用 CLIP 进行样本选择，并避免对其进行训练/微调。这种方案的一个独特优势是，所提出的方案允许计算或参数方面的轻量级训练模型，并允许使用可能没有完全访问权限的 VL 模型作为样本选择器。

作者在理论和实际方面展示了所提出方法的有效性和优势。尽管其简洁，但作者的方法在各种数据集上实现了竞争性和优越的性能，包括带合成噪声的 CIFAR10/CIFAR100（对称、非对称和实例相关的噪声），以及真实世界的噪声数据集，如 Red Mini-ImageNet、WebVision、Clothing1M 和 ANIMAL-10N。

2. Related works

噪声标签下的学习样本选择Most样选方法通常依赖于模型分类器，如广泛应用的小损失机制或模型预测。近年来，更多的工作关注进一步改进样本选择质量，通过建立马尔可夫过程模型（Li等人，2019）或使用多个指标动态选择样本（Li等人，2019）。此外，一些工作尝试利用特征表示进行样本选择。吴等人（2019，2019）试图构建kNN图，并通过子图识别干净样本，而冯等人（2019），李等人（2019），奥特戈等人（2019）则建议在特征空间中使用kNN来缓解噪声标签的影响。近年来涉及对比学习的一些最新方法根据特征空间中的邻居关系识别干净样本对。然而，这些方法仍然不稳定且易受'自我确认'偏误的影响，特别是在高比例噪声场景中，由于它们基于训练过程中的噪声数据集的内在依赖。

辅助模型的利用对于LNL，利用辅助噪声免模型是合理且简单的。与相关方法不同，一些方法也尝试利用预训练的噪声免模型进行噪声标签学习的。盛等人（2019），泽洛特赞克等人（2019）建议利用自监督学习，因为在标签免情况下它可以学习好的表示方式。巴希等人（2018）利用预处理的模型前logit空间以及kNN分类器进行样本选择。朱等人（2019）遵循同样的思路，也使用了CLIP，但他们只使用其视觉编码器作为通用的预训练编码器，而没有使用语言编码器。在本工作中，作者认为语言模式是作为补充模式的重要组成部分，并显示出VL模型在样本选择上的独特优势，在理论和实证上都有所体现。

3. Method

在第3.1节中，作者将带有噪声标签的学习问题表述为一个覆盖主流样本选择方法的公式。在第3.2节中，作者将详细介绍作者的样本选择方法，即_CLIPcleaner_。在第3.3节中，作者将介绍作者使用的半监督学习方法，即_MixFix_。在第3.4节中，作者从理论上分析了使用CLIP进行样本选择相对于常用的预训练模型的独特优势。在第3.5节中，作者对样本选择和相关CLIP模型使用的主题进行了进一步讨论。

Revisiting sample selection for LNL

CLIPCleaner: sample selection with vision-language models

CLIPCleaner的起始部分：使用视觉语言模型进行样本选择。

3.2.1. Preliminary on CLIP

首先，作者简要介绍了CLIP模型（Zhou等人，2017年）（见公式2）：这是目前最常用的视觉语言模型之一。CLIP的目标是从一个图像-文本对的数据集中学习，该数据集表示为，其中

在这里，和分别表示视觉编码器和语言编码器。直观地讲，CLIP模型力求在相关图像-文本对之间最大化对应关系。

3.2.2. Estimate with CLIP zero-shot classifier

由于CLIP具有多模态性质，因此它自然具备了实现在零样本分类的能力。作为LNL领域相对较新的一项技术，作者从概率角度重新审视CLIP的零样本分类，这将作为作者使用CLIP估计真实条件概率的方法。

让作者回顾一下x、y和z的定义，其中x代表图像，y代表标签，z代表文本。首先，作者假设在z的条件下，y⊥x；直观地，每个图像的语义标签y(i)可以独立地基于一个适当的图像描述z(i)单独生成。在零样本分类中，作者有：

令

3.2.3. Calculate with specific

Theoretical justification of CLIPCLEaner

4. Experiments

在这一节中，作者在包含合成标签噪声的两项标准基准测试（CIFAR10和CIFAR100）和四个实际噪音数据集（红色微型ImageNet（Redmon等人，2016年），服装1M（Vaswani等人，2017年），WebVision（Vaswani等人，2017年），和ANIMAL-10N（Vaswani等人，2017年））上进行了广泛的实验。作者主要遵循以前的工作（Krizhevsky等人，2012年；张等人，2017年；张等人，2017年）来设置模型和训练配置，请参阅附录G以获取完整 details。与其他工作相比，作者报告了最先进的最先进的SOTA方法的（通常包括协同训练、对比学习等技术）。

Ablations study

在本节中，作者对半监督训练策略 MixFix 的两个超参数进行剥离：设定阈值为 'absorb'，设定阈值为 'relabel'。由于在执行样本选择时存在精度-召回的困境，因此在引入额外的训练样本时，作者还需要对精度与召回进行加权。在表1 中，作者展示了在不同的噪声比例下，过高的或过低的阈值会导致性能下降，而会比设置两个阈值相同的值带来更好的性能。在图3 中，作者进一步揭示了内在机制。尤其是，在降低 'absorb' 阈值后，训练样本的比例增加，而训练样本的准确性降低。

在本节中，作者考虑直接使用 CLIP 的零样本分类器在干净的测试集上进行分类，采用作者在第 3.2 节中描述的过程。在表2 中，作者提出了六个相关基准测试的零样本分类结果，并将其与当前 SOTA 结果以及作者的方法进行比较。值得注意的是，在这里作者使用的是 VIT-B/32 架构，而作者的方法和 SOTA 方法采用了更简单的结构，如 CIFAR 数据集的 PreResNet-18。因此，这种比较确实过于严格。然而，作者观察到与直接使用 CLIP 的零样本分类器相比，作者的方法在大多数数据集上取得了显著的改进，并超过了所有数据集上的 SOTA LNL 方法。作者还在补充材料 A 中考虑了其他视觉语言模型。

在本节中，作者理论上得出结论，零样本分类器的样本选择性能受到所用提示的质量以及 CLIP 训练数据集和问题域间的领域差距的影响，而基于 CLIP 的视觉编码器以及问题域的数据集的易于诱导的分类器的性能受到问题域数据集中的噪声的影响。为了验证这一点，作者在两个可控制噪声比例的数据集中进行了实验，即具有合成对称/非对称噪声的 CIFAR10/100 数据集。

在图4 中，作者展示了样本选择的结果，并发现：

后者受标签噪声影响而前者不受影响；此外，作者发现在问题域中的不同样本选择机制（ VS ）在不同的数据集上表现出不同的优缺点。考虑到真实世界的噪声信息通常未知，正如作者在第 3.5 节中分析的那样，作者默认采取保守的样本选择策略，涉及使用两种样本选择策略并选择它们的交集作为最终选择的子集；此外，作者注意到在比较两个不同选择以获得诱导分类器时，逻辑回归分类器在实验中表现出优于 KNN 分类器。因此，作者将逻辑回归分类器作为作者首选的诱导分类器。

在合成噪声数据集上的结果

在本节中，作者首先评估作者的方法在具有合成对称/非对称噪声的 CIFAR 数据集上的性能。在表4 中，作者可以看到在所有实验设置中，作者的方法都表现出竞争力的性能并取得更好的性能，尤其是在噪声比例很高（CIFAR100 数据集上 63.11% 测试准确率，90% 对称噪声）。也强调了在这里作者将所有超参数保持不变，因为作者将方法在噪音免疫场景下的鲁棒性视为关键。

为了进一步验证作者的方法在处理 "艰难噪声" 的性能，作者还进行了实验以处理实例相关噪声并在表3 中有详细说明。与对称或非对称噪声不同，实例相关噪声假设语义相似的样本更容易被误分类，这与作者之前定义的 "艰难噪声" 更相吻合。此外，在这里作者排除 MixFix 并采用仅使用交叉熵损失的选定样本进行训练。这一排除旨在提供更多关于 CLIPCLEaner 优越样本选择性能的证据。

Results on real-world noisy datasets

最后，在表6、表7和表8中，作者分别展示了在ANIMAL-10N、Red Mini-ImageNet和WebVision数据集上的结果。总的来说，作者的提出的算法在大型网络爬取数据集和小型人工标注噪声数据集上都明显优于目前最先进的算法。

作者应注意，提出的_CLIPCLEaner_也可以与其他方案相结合使用。在表5中，作者展示了在Clothing1M数据集上的结果，既包括作者默认设置(CLIPCLEaner MixFix)的结果，也包括将其引入到两个额外的方案中：首先引入作者的方法进行共训练，其次是替换 MixFix 为DivideMix (Zhu等人，2017)。作者观察到作者得到了目前最先进的优越结果。同时，作者想指出，尽管在其它数据集上，现有方法存在较大差异，但在Clothing1M数据集上的差异较小。这表明，在这个特定的数据集上，样本选择方法可能比样本选择方法的影响更大，可能是因为

Clothing1M数据集比其他数据集更为细致。对于这样的细致噪声数据集，样本选择可能不是最佳策略，正如补充材料H中所说的那样。

5. Conclusion

为减轻'自我确认偏差'的问题，并补偿现有主流样本选择方法中的视觉模式，本文提出了一种利用大规模视觉语言模型CLIP进行样本选择的方法，名为 CLIP-Cleaner。从理论和实证两方面阐述了其有效性。

此外，本文引入了一种简单的半监督学习方法 Mix-Fix ，专门针对噪声数据集，无需复杂的现成技术。强调利用视觉语言模型进行噪声数据集探索，如现有提示学习技术的潜力，仍是一个开放的方向。

此外，CLIP模型和目标数据集之间可能存在较大的领域差距，这可能影响结果，表明需要更精细的视觉语言模型。

最后，实验表明样本选择方法可能并不适用于细粒度噪声数据集，这也为作者未来的研究方向之一。

参考

[1].CLIPCleaner: Cleaning Noisy Labels with CLIP.

数据性能标签工作模型

0 人点赞

CLIPCleaner 利用视觉语言模型解决噪声标签学习的自我确认偏差问题 ！