概念瓶颈模型(CBM)将输入图像映射到人类可以理解的高级概念空间,然后基于这些概念进行分类预测。最近的方法通过提示大型语言模型(LLM)生成文本概念,然后使用视觉语言模型(VLM)获得概念得分来训练CBM。 然而,人们更希望构建由人类专家定义概念的CBM,而不是LLM生成的概念,以使它们更加可信。在这项工作中,作者仔细检查了在细粒度鸟类物种分类和动物分类等领域,VLM概念得分对专家定义概念的忠实度。 作者的调查发现,尽管取得了很高的分类性能,但冻结的VLM(如CLIP)在将概念正确地与相应的视觉输入关联方面存在困难。 为了解决这个问题,作者提出了一种新颖的对比半监督(CSS)学习方法,该方法使用少量标记的概念样本来改善CLIP模型中的概念对齐(激活真实的视觉概念)。 在三个基准数据集上的大量实验表明,作者的方法显著提高了概念准确性和分类准确性,而只需要很小一部分人类标注的概念标签。 为了进一步提高分类性能,作者还引入了一种针对细粒度分类问题的新类级干预程序,该程序识别混淆类并干预它们的概念空间以减少错误。 源代码可在https://github.com/NMS05/Improving-Concept-Alignment-in-Vision-Language-Concept-Bottleneck-Models获取。
1 Introduction
概念瓶颈模型(CBM)[14]是构建具有高级概念的可解释模型的一种流行选择。这些模型首先将输入图像映射到一个低维的(因此有“瓶颈”一词)专家定义的概念空间,其中每个概念都可以被人类容易理解。例如,朱红捕蝇鸟这一鸟类物种可以有“红色身体”、“黑色翅膀”和“红色冠”等概念。然后,一个线性分类器在这些概念之上进行类别预测。构建CBM有两个基本要求:一个定义良好的、无歧义的概念集以及每个样本的相应概念标签。近期的方法[25, 46]通过利用大型语言模型(LLM)和视觉语言模型(VLM)来自动化上述步骤,并将CBM扩展到更大的数据集(如ImageNet)。它们通常涉及通过用少量样本提示LLM来生成一个初始概念集,然后提取那些有利于区分(分类)的概念子集。当图像和这个经过筛选的概念集3作为输入传递给经过对比预训练的VLM时,其图像-文本对齐分数作为该样本的“概念分数或概念标签”。这些概念标签可以用来训练另一个CBM分类器,或者直接用来预测类别,从而将VLM转变为CBM(从此处起称为VL-CBM)。尽管LLM拥有丰富的世界知识,并且可以在任何领域生成潜在的(大量)概念集,但在某些情况下,专家定义的概念更为合适。
- 小型且简洁的专家定义瓶颈概念集使得错误分析及干预更加容易,这对于可解释模型至关重要。
- 在医学领域,如血液学,更愿意使用专家定义的概念集而不是从LLM生成的概念集,因为前者来自更受信任的病理学家。
- 为了忠实于“视觉”分类,所有概念必须具有视觉可验证性,这是专家定义概念集所保证的。相比之下,对于如鸟类物种分类的问题,LLM可以生成像“候鸟”这样对视觉分类不是显著的概念。
在这样有限但更可取的专家概念情况下,VLM的概念分数是否忠实地代表了视觉输入,并且它们在构建具有期望性能的VL-CBM时是否有效?为了回答这个问题,作者仔细检查了CLIP 在CUB ,RIVAL 和AwA2 等分类数据集上专家定义概念的分数。理想情况下,希望CLIP模型能够精确地将视觉概念(外观、颜色、形状等)与相应的视觉输入相关联。作者的调查揭示了两个问题,
- 概念准确性低。尽管VL-CBM取得了很高的分类性能,但CLIP(VLM)模型的概念准确性较低,这使得生成的模型可信度降低。
- 概念关联错误。对于像CUB这样具有挑战性的分类问题,CLIP模型对鸟的主要颜色敏感并存在偏见,并将这种主导颜色关联到所有其他身体部分。它在正确地将细粒度概念归因于视觉输入方面存在困难。
因此,为了提高VL-CBM的可靠性,有必要改善概念对齐,即对于给定的图像激活期望/真实的概念,这需要监督。但对于所有训练样本获取监督性概念标签是繁琐的。为了解决这个问题,作者提出了一种新颖的对比半监督(CSS)学习方法,它可以在较少的标记概念示例的情况下改善VL-CBM中的概念对齐。
作者的方法鼓励同类样本之间的一致概念得分,同时使它们与其他类别形成对比。然后,它使用每个类别的一小部分标记概念示例(半监督)将它们与真实情况对齐。在三个基准数据集CUB [38],RIVAL [21]和AwA2 [42]上的大量实验表明,作者的CSS方法大幅提高了概念准确性(CUB提高了 39.1%,RIVAL提高了 18.63%,AwA2提高了 31.11%),并且仅使用每个类别的一小部分人工标注的概念标签,就提高了整体分类准确性(CUB提高了 5.61%,RIVAL提高了 2.84%,AwA2提高了 3.06%)。
作者还使用血细胞属性数据集WBCAtt [36]在医学领域验证了作者的CSS方法。
干预是CBM与其他可解释模型相比的根本优势——如果分类器做出了错误的预测,可以检查概念得分并纠正问题,使模型做出期望的预测。CBM中的干预通常在实例 Level 进行[14, 25],其中任意选择一些错误图像进行调试。但对于每个类别样本较少且视觉上相似的细粒度多类分类问题,选择错误图像并非易事。在这项工作中,作者提出了一个针对细粒度分类问题的类 Level 干预程序,作者首先计算一个错误矩阵以识别“混淆类”(视觉相似但语义不同),然后干预这些类的错误图像,以降低混淆类的总错误,同时提高整体分类准确性。本文的主要贡献总结如下,
- 验证VL-CBM的忠实度。 作者研究了专家概念的概念得分,并显示CLIP模型在概念对齐方面表现不佳,且它们在将细粒度概念正确关联到视觉输入方面存在困难。
- 改进概念对齐。 为了解决上述问题并提高VL-CBM的可靠性,作者提出了一种新颖的对比半监督(CSS)方法,该方法使用一小部分人工标注的概念标签来提高概念准确度和分类准确度。
- 类别级干预。 作者为细粒度分类问题提出了一种干预程序,该程序减少了混淆类别的总错误,并进一步提高了分类性能。
2 Related Work
后验可解释模型。 后验方法通过使用显著性图将预训练的黑箱分类器转换为可解释模型。它们突出显示了影响分类器预测的输入空间区域[31],帮助人们理解特定类别的显著特征。尽管显著性图可以揭示分类器关注的语义特征(或虚假相关性),但它们的解释可能是主观的,可能需要专业知识。
基于原型和基于概念的的可解释模型。 与后验方法形成鲜明对比的是,这些模型可以被训练并且设计上就是可解释的。基于原型的学习方法 从训练样本中为每个类别学习可解释的视觉特征原型。在推理过程中,测试样本特征与学习到的原型之间的距离(相似度得分)决定了分类器的决策。BotCL [39] 是一种与作者的工作密切相关基于原型的学习方法。它将对比学习应用于视觉模型的原型空间,而作者专注于在视觉-语言(多模态)模型的 concept 空间上进行对比 半监督学习。基于概念的方法将输入映射到由人类专家定义的高级概念空间,这些概念容易解释。分类器的决策基于预测的概念得分。基于概念方法的主要优势在于它们允许测试时干预,并且与其他方法相比更容易调试。
基于VLM的可解释模型(VL-CBM)。 基于概念模型的问题在于,它们需要对每个训练样本的概念标签或代表每个概念的大量训练图像。为了解决这个问题,最近的几种方法 利用对比预训练的视觉-语言模型,如 CLIP [28],通过它们的图像-文本对齐得分自动生成概念标签。这些模型具有可解释的自然语言概念,通常由大型语言模型生成,这种自动化方法可以将它们扩展到更大的数据集。
提高VL-CBM的忠实度。 最近的一些工作专注于解决基于VLM的概念瓶颈的不足,以提高其可靠性。它们限制类预测关注一组显著概念,使概念得分对扰动具有鲁棒性,并通过建模不确定性和组合能量函数获得可靠的概念得分分布。在作者的工作中,通过使用人类(专家)偏好的概念,并在半监督设置中使用少量概念标签来提高VLM的概念得分,从而提高了VL-CBM的忠实度。
3 Methodology
作者在第3.1节正式定义了VL-CBM,并在第3.2节研究CLIP概念分数的忠实度。然后,在第3.3节中,作者提出了作者的对比半监督(CSS)方法来改善概念对齐。
Vision-Language Concept Bottleneck Models
考虑一个数据集 ,其中 表示图像, 表示 个类别的标签, 是训练样本的总数。当一个黑盒分类器 直接将图像 映射到其标签 时,一个CBM(概念引导模型)包括一个 Backbone 网络 ,它首先将图像 映射到一个由 个预定义概念组成的概念空间,以及一个线性分类器 ,它将预测的概念映射到相应的标签 。这些概念代表了对于解决分类任务至关重要的显著视觉特征。
然而,训练 Backbone 网络 需要得到 个概念标签,这通常很难获取。VL-CBM 通过利用对比预训练的视觉-语言模型(如CLIP)的图像-文本对齐分数作为概念标签来克服这个问题。具体来说,设 是由LLM生成或专家定义的文本概念集合。现在对于图像 的 个概念标签,记作 ,可以通过 得到,其中 表示点积, 和 分别表示将图像和文本概念映射到共享特征空间的CLIP模型的图像编码器和文本编码器。现在,有了 个样本的图像 、概念标签 和类别标签 , Backbone 网络 和分类器 可以独立或联合训练。
Faithfulness of Vision-Language Concept Bottleneck Models
作者验证了VL-CBM对专家概念在不同图像分类数据集上的忠实度,这些数据集包括Caltech-UCSD Birds (CUB) [38],Rich Visual Attributes with Localization (RIVAL) [21],以及Animal with Attributes (AwA2) [42]。这些数据集提供了专家概念以及作者评估所需的相应真实概念标签。作者将图像和专家(文本)概念输入到冻结的CLIP模型中,按照第3.1节所述获取概念得分。作者的目标是通过将这些得分与真实概念标签进行比较,评估VLM概念得分的质量和忠实度,并使用线性分类器评估它们的分类性能。概念评估结果展示在表1中。作者的调查揭示了CLIP概念得分存在的两个问题。
概念准确度低。 从表中可以看出,尽管VL-CBM实现了较高的分类准确度,但CLIP模型的概念准确度却很低。这意味着更高的分类性能并不保证对概念有深刻的理解,这使得VL-CBM的可靠性降低。此外,在测试时很难干预这样的模型,以纠正预测错误。概念关联错误。 对图2中(CLIP概念得分)的这些概念进行更仔细的观察,可以发现,对于CUB这样的细粒度概念,CLIP模型对鸟类的主要颜色敏感并存在偏见,并将这种主导颜色关联到所有其他身体部分。未经训练的模型在将颜色/纹理概念正确关联到相应的鸟类部分方面存在困难,这对于鸟类物种分类至关重要。
概念准确度低以及概念关联错误是CLIP模型在关系和组合理解上不足的结果,即它们在将目标与属性关联时出现错误[47],特别是在多目标和多属性设置中[16]。因此,为了提高VL-CBM的可靠性和忠实度,有必要改善概念对齐,即激活给定图像的真实概念。
Improving concept alignment in VL-CBM
作者提出了一种新颖的对比半监督(CSS)学习方法,该方法可以通过每类几个标注的概念样例来改善VL-CBM中的概念对齐。整体框架如图1所示。
从表1中,作者可以看到冻结的CLIP模型达到了一个低但非微不足道的概念准确度。作者通过添加一个可学习的线性概念投影层(见图1a)来改进这一点,该层通过直接从平均池化的视觉块标记预测个概念来增强CLIP概念分数,如下所示:
图1:(a) 带有概念投影的VL-CBM架构(引导)。(b) 对比半监督(CSS)学习方法概述。
其中是图像特征,是个概念的文本特征,表示来自视觉编码器的平均池化块标记,是可学习的概念投影层,表示层归一化。从概念分数,一个线性分类器对图像进行类预测,其中表示个类的类逻辑值。
现在必须优化模型以改善概念对齐并实现高分类准确率。为了提高概念对齐,可以将预测的概念与 GT 概念标签进行比较。然而,较少的概念标签(半监督)使得在改善其他 未标注 样本的概念对齐方面效果不佳。为了缓解这一点,作者在概念空间中增加了一个对比学习目标,以下是其直觉。对比目标鼓励同类样本的“一致”概念得分,而这些样本中的少数几个(半监督)概念标签可以指导或使预测的概念与 GT 对齐。此外,对比学习区分了不同类别样本的概念得分,从而有助于分类。这种通过对少量标记样本引导的样本对之间强制一致性的学习目标[3, 20]在视觉-概念行为模型(VL-CBMs)中尚未被研究。
- 对比损失 () 优化 ,并鼓励同一类别的概念得分(正对)保持一致,并与其他类别(负对)区分开来。
- 交叉熵损失 () 训练线性分类器 ,使其从概念得分进行类预测。
- 概念损失 () 优化 ,将概念预测与 GT 概念标签对齐,它主要提高了概念准确性。如果概念标签可用(),则启用概念损失,否则它变为零。
4 Experiments
Experimental Setup
数据集。 作者在CUB [38],RIVAL [21],AwA2 [42]数据集上验证了作者对比半监督(CSS)方法在提高概念对齐方面的有效性,并在White Blood Cell Attribute(WBCAtt)[36]数据集的医疗环境下进行了验证。所有上述数据集都提供了专家定义的概念集合及其相应的真实概念标签,这对于作者的评估至关重要。
模型与训练。 对于WBCAtt数据集的实验,作者使用了Hugging Face中可用的PLIP ViT-B-16 [9]模型,而对于所有其他数据集的实验,作者使用了OpenCLIP ViT-B-16模型[10]。作者使用Adam优化器来训练所有模型,并通过分类准确率和/或概念准确率指标来评估它们。
Improving Concept Alignment
作者通过表2实证展示了对比半监督(CSS)方法在提高CUB、RIVAL、AwA2和WBCAtt数据集的概念对齐方面的有效性。
鸟类和动物分类。 作者使用概念准确度和分类准确度指标,在CUB、RIVAL和AwA2数据集上验证了作者的CSS方法。首先,作者使用冻结的CLIP视觉编码器(ViT-B/16)作为主干,训练了一个黑箱图像分类器,以此建立 Baseline 分类性能。黑箱分类器直接从图像特征预测类别,没有概念瓶颈。然后,作者按照第3.1节描述的方法,用专家定义的文本概念训练了一个CLIP VL-CBM分类器。从表中可以看出,CLIP VL-CBM的分类性能与黑箱分类器相当,但其概念准确度较低。
因此,为了提高VL-CBM的忠实度和可靠性,作者在后期应用了概念投影(自举)并用作者的CSS目标优化模型(CSS VL-CBM)。作者的CSS方法不仅显著提高了概念准确度,还缩小了与黑箱方法在图像分类性能上的差距。特别是对于CUB数据集,作者的CSS方法超越了黑箱分类器。上述数据集用于训练CSS VL-CBM模型的概念标签数量如下:CUB - 9个标签(30%)、RIVAL - 8个标签(0.1%)、AwA2 - 10个标签(1.4%)。括号内的值表示“用于训练的概念标签占总概念标签的比例”。结果表明,即使只有如此少量的概念标签,作者的CSS方法也可以显著提高概念准确度。通过CSS改善概念对齐后,增强的概念分数忠实度展示在图2中(CSS概念分数)。
WBC属性预测。 WBCAtt包含了带有31个“细胞形态”属性的的白细胞(WBC)图像,这些属性有助于在血液学中进行诊断。作者直接在属性预测准确度上评估模型,不进行任何图像分类。尽管当代方法[46; 48]使用HAM10000[35]数据集在医学领域研究VL-CBM,但WBCAtt中属性标签的可用性使其适合作者的工作。在评估中,作者用50%的属性标签训练了PLIP模型[9](用于病理AI的VLM模型)。从表中可以看出,作者的CSS方法显著提高了属性预测准确度,并缩小了与黑箱属性预测器的差距。
概念标签数量的影响。 由于作者的方法是半监督的,作者在图3中进一步探讨了人类标注的概念标签数量对CSS VL-CBM性能的影响。对于CUB和RIVAL数据集,作者逐步增加用于训练的概念标签数量,观察到分类和概念准确度的相应增加。
对于WBCAtt,作者研究了在增加用于训练的属性标签数量时,黑箱(PLIP视觉编码器)属性预测器与CSS(PLIP)VL-CBM属性预测器的比较。注意,WBCAtt没有图像分类任务。作者可以看出,在数据资源较少的情况下,作者的CSS方法优于黑箱属性预测器。
Comparison with other methods
CUB. CUB数据集被可解释AI社区广泛用于构建和研究基于概念的可解释模型。因此,作者全面地将作者的对比半监督VL-CBM方法与现代基于VLM的可解释模型在CUB数据集上进行比较。结果展示在表3中。为了与LF-CBM [25]和PCBM [48]进行公平的比较,作者执行了两阶段训练。在第一阶段,使用由作者的CSS VL-CBM模型生成的概念标签训练带有线性概念预测器的ResNet18 Backbone 网络。它最小化了损失函数。在第二阶段,按照[48]中的描述,使用scikit-learn的稀疏线性SGD分类器进行5000步的训练。Backbone 网络、概念预测器和稀疏线性分类器共同构成了一个CBM。
从表中可以看出,由作者的CSS VL-CBM方法监督的ResNet-18 CBM的分类精度与LF-CBM相当,并且比PCBM实现了更高的性能。然而,作者观察到在联合训练 Backbone 网络、概念预测器和线性分类器层时,同时使用和损失可以获得最佳性能。图4展示了由作者的CSS VL-CBM监督(联合训练)的ResNet18 CBM学到的概念Grad-CAM [31]可视化。从图中可以看出,作者CSS VL-CBM模型改进的概念知识(对于给定图像激活真实概念)有效地转移到了ResNet模型中。它能够将颜色或纹理概念正确地关联到相应的鸟的部分。此外,作者的方法在仅使用312(CUB)专家概念的情况下优于LaBo [46],而LaBo则利用了个LLM生成的瓶颈概念。
RIVAL和AwA2. 作者进一步在表4中将CSS VL-CBM与当代方法在动物分类数据集上进行比较。对于RIVAL数据集,CSS获得了比Text2Concept [22]更高的分类性能。对于AwA2数据集,CSS获得了比其他方法更高的分类准确率,但与ECBM相比,概念准确率稍低。需要注意的是,PCBM [13]和ECBM [43]没有使用“文本”概念,并且在训练过程中优化了特征提取器(视觉 Backbone )。
5 Intervention
当CBM犯错时,可以检查错误的预测,并手动调整分类器权重或修改概念以修正这些错误。这种方法称为“干预”或“模型编辑”。传统的干预方法通常在实例 Level 上进行[14, 25, 48],其中任意选择一些错误图像进行干预。然而,对于像CUB这样的细粒度多类别分类问题,类别更多(有些鸟类视觉上相似)且每个类别的样本相对较少,选择错误图像并不容易。此外,希望进行干预以提高整体性能[48],而不仅仅是修正少数图像的错误。因此,作者提出了一种类 Level 干预程序,首先确定混淆类,然后选择这些类的错误图像进行干预。混淆类是指视觉上相似但在语义上不同的鸟类种类,模型对这些具有挑战性的类别犯的错误最多。以下是在以下步骤中完成的类 Level 干预。
图5:混淆类 - 视觉上相似但属于不同亚种的鸟类。
步骤1:确定混淆类。 首先,作者通过在测试集上评估训练好的CSS VL-CBM模型,计算一个错误矩阵,其中是类别数。错误矩阵给出了每个类的错误分布,矩阵元素索引的最高值(错误)给出了混淆类对。在作者的实验中,确定了两组混淆类“加州鸥 - 西部鸥”和“普通燕鸥 - 北极燕鸥”,如图5所示。表5给出了进行干预之前这些混淆类的分类错误总数。
步骤2:检查概念空间。 接下来,作者检查这些混淆类对中错误图像的概念得分。作者发现混淆类的概念得分分布几乎相同,这使得很难对它们进行区分。作者的模型犯的是第2类错误[25],即瓶颈概念的数量及其得分分布不足以有效区分样本。
步骤3:扩展概念集。 为了减少第2类错误并提高整体性能,作者通过利用LaBo[46]提供的概念来扩展概念集。请注意,要添加的新概念应当可以通过CLIP模型在视觉上得以证实,因此作者使用LaBo的“过滤”概念集。作者为每个混淆类选择“top-32”概念,并将概念集从原始的个扩展到个。正式地说,设为新的个文本概念集,为其CLIP概念得分。现在图像的所有个概念的概念得分由给出。在此干预过程中,作者没有为扩展的概念集训练新的概念投影层。
步骤4:训练分类器。 作者添加了一个新的线性分类器,它直接预测混淆类为。然后作者为非混淆类附加零,并将它们添加到原始类别预测中,即。最后,作者在CUB训练集上同时以标准监督设置和交叉熵损失训练线性分类器和。表5给出了此类 Level 干预过程后的分类错误总数。作者观察到混淆类的错误数量显著减少,并且分类性能总体上有所提高。
6 Limitations
尽管VL-CBMs具有许多优势,但它们有两个潜在的局限性。
不可言喻的概念。 尽管自然语言提供了一种方便的方法来构建具有高级抽象概念的可解释模型,但其表达力可能有限,即对于某些分类任务(如人脸识别)所需的微妙视觉线索可能难以用语言表达。
未知的概念。 所有CBMs(包括VL-CBMs)都假设在训练之前已知解决分类任务所需的所有显著概念。然而,并非所有用例都能满足这一要求。在这种情况下,基于原型的方法与可学习的视觉特征原型是合适的,因为它们可以在训练过程中“发现”未知的概念。
7 Conclusion
在这篇论文中,作者研究了VL-CBM对专家定义概念的忠实度,并发现像CLIP这样的VLM在概念对齐上表现不佳。因此,作者提出了一种新颖的对比半监督方法,在少量人工标注的概念标签下改善了VL-CBM中的概念对齐。作者还引入了一种类 Level 的干预程序,用于细粒度分类问题,减少了混淆类别的错误,从而提高了模型的总体性能。
8 Acknowledgement
这项工作是在新加坡南洋理工大学(NTU)电子与电气工程学校快速丰富目标搜索(ROSE)实验室进行的。这项研究得到了新加坡国防科技局(DSO National Laboratories)的支持,项目协议编号为DSOCL21238。
参考
[1].Improving Concept Alignment in Vision-Language Concept Bottleneck Models.