利用大型语言模型和扩散模型大规模生成视觉最小变化数据,提升VLMs的细粒度理解能力 !

2024-07-31 16:51:33 浏览数 (1)

对于视觉-语言模型(VLMs)来说,对物体、属性以及物体间关系的细致理解至关重要。为了评估VLMs在细粒度理解方面的能力,现有的基准测试主要关注于评估VLMs在给定图像的情况下区分两个非常相似的标题的能力。本文的重点是评估VLMs在给定标题的情况下区分两张非常相似的图像的能力。 为此,作者提出了一个名为视觉最小变化理解(VisMin)的新挑战性基准,它要求模型在给定两组图像和标题的情况下预测正确的图像-标题匹配。重要的是,图像对(以及标题对)包含最小变化,即两张图像(以及两个标题)之间一次只改变以下可能的改变类型中的一种:_物体_、_属性_、_计数_和_空间关系_。 这四种最小变化类型特别设计用于测试模型对物体、物体属性(如颜色、材质、形状)、物体计数以及物体间空间关系的理解。为了策划作者的基准,作者使用大型语言模型和扩散模型构建了一个自动框架,并经过人类标注者的严格四步验证过程。实证实验揭示了当前VLMs在理解空间关系和计数能力方面存在显著不足。此外,利用作者数据创建过程的自动化特点,作者生成了一个大规模的训练数据集,用于对CLIP(一个基础的VLM)和Idefics2(一个多模态大型语言模型)进行微调。 作者的研究结果表明,这两个模型在微调后显著提高了细粒度理解能力,这在广泛的基准测试中得到了明显的改善。此外,这种微调还提高了CLIP在图像-文本对齐方面的通用能力。 作者在https://vismin.net/上发布所有资源,包括基准测试、训练数据和微调后的模型预训练权重。

1 Introduction

细粒度地理解目标、属性及其关系对于视觉-语言模型(VLMs)有效泛化到新的、未见过的场景和构图至关重要。以往的研究如ARO [40] 和 Sugarcrepe [8],强调了VLMs在这一领域的不足,主要关注于理解两个非常相似的标题之间的细粒度差异——一个人工编写的标题和自动生成的硬负例2标题,其中硬负例标题与原标题仅在目标、属性或两个目标之间的关系上有所不同。虽然可以通过基于规则的方法合成标题的硬负例,但为图像合成这样的硬负例则非常具有挑战性。

现有的展示视觉硬负例的基准测试存在两个主要局限性:

  1. 难度有限:在如Winoground [34]、MMVP[35]等基准测试中,原始图像与其硬负例在多个方面(目标、目标的属性、图像背景等)存在差异。这种多样性限制了基准测试的难度,使得精确评估模型对特定方面的细粒度理解变得具有挑战性。
  2. 复杂性有限:尽管如EQBEN [36]、SPEC [27]等基准测试控制了硬负例,但视觉领域仅限于图形引擎、少数视频领域或仅依赖描绘简单场景的合成图像。

基于这些观察,作者提出了一个新的基准测试视觉最小变化理解(VisMin),建立在COCO [21]数据集的图像之上,该数据集包含复杂的日常场景图像。VisMin旨在衡量VLMs理解最小变化的能力,即仅在一个方面(见图1)发生变化:目标、属性、数量和空间关系,同时尽可能保持其他方面不变。

对于模型的评估任务是在给定以下内容时预测正确的图像-标题匹配:1)两张图片和一个标题,2)两个标题和一张图片。为了策划VisMin,作者使用大型语言模型和扩散模型构建了一个自动化的流程。为了确保作者基准的质量,使用自动化流程生成的合成数据经过人类标注者的严格四步验证过程,只有在通过所有四个步骤的情况下,数据才会被保留在基准中。作者精心设计了基准,确保在尽可能多的类别之间保持一致性。作者对基准进行了详细分析,这使能够更透明地评估模型的各种优势和劣势。

作者对八个开源视觉语言模型(VLMs)进行了实证测试,包括像CLIP [30]这样的基础模型和像Llava[23]和Idefics2[14]等多模态大型语言模型(MLLMs)。作者还评估了两个闭源API,即GPT-4和Gemini。作者的研究发现,基础模型和MLLMs在理解物体和属性的最小变化方面表现相对较好。令人惊讶的是,MLLMs在物体和属性理解方面竟然低于基础VLMs的表现!对于空间关系理解,尽管MLLMs的表现优于VLMs,但这两个家族的模型的表现都低于随机几率!同样,这两个家族的模型在计数能力方面也有很大的提升空间。作者的结果表明,在VLM评估中需要强调空间推理和计数理解,而不仅仅是属性/物体识别。作者预计,作者的基准将推动社区在这些关键领域的进步。最后,由于作者合成数据创建过程的自动化性质,作者生成了大规模(64,392个样本)的最小变化图像文本数据,用于微调VLMs以增强其细粒度理解。在未对模型架构或损失函数进行任何额外修改的情况下,在作者的最小变化数据上对CLIP(一个基础VLM)和Idefics2(一个MLLM)进行微调,显著提高了在各种基准上的细粒度理解能力。值得注意的是,这种微调还增强了基础VLMs的通用图像文本对齐能力,如CLIP在COCO上的图像文本检索性能显著提高所示。这些观察表明,作者的最小变化数据集可以作为模型无关的通用资源,用于提高VLMs的能力。

综上所述,作者的贡献有三方面:

  1. 一个受控且具有挑战性的基准。作者推出了VisMin基准,它挑战模型检测视觉相似但在语义上不同的图像之间的语义差异。在基础视觉语言模型(VLMs)和大规模语言模型(MLLMs)上的广泛测试揭示了它们在此任务上的困难,指出了改进的方向。
  2. 一个自动化数据创建和基准开发的流程。作者创建了一个自动化流程,利用大型语言模型和扩散模型大规模生成视觉最小变化数据,并通过严格四步人工验证系统确保数据的高质量。
  3. 通过在最小变化数据上的微调提升VLMs的细粒度理解能力。作者在大规模最小变化图像-文本数据上对CLIP和Idefics2进行微调,从而提高了它们对细粒度理解的掌握,展示了图像与文本对齐性的提升和整体性能的增强。

2 Related work

细粒度理解基准测试: 大多数现有的基准测试专注于理解细粒度的文本差异,例如VL-checklist [44],ARO [40]和Sugarcrepe [8]。展现视觉难例负样本的基准测试,如EQBEN [36],Winoground [34],ImageCode [13],SPEC [27],要么缺乏最小变化,要么视觉复杂性有限——图形引擎、少数视频领域或纯粹合成的描绘简单场景的图像。作者的基准测试通过利用LLM [11]和扩散模型 [29; 19; 20]的进展,在复杂的类似COCO的场景中实现最小变化,同时不损害图像的自然性,从而为VLM中的细粒度视觉理解提供更健壮的评估。关于基准测试的详细比较请参见第4节。

自动生成视觉难例负样本的方法: 现有自动生成视觉难例负样本的方法大致分为三类:(i)使用具有语义变化的邻近视频帧 [13; 36],(ii)使用图形引擎 [36],(iii)使用扩散模型 [27; 36; 16]。作者提出的框架属于第三类。DEMON [16] 与作者的工作最为接近,他们使用扩散模型创建训练数据以改善给定视觉-语言模型的训练。他们使用扩散模型在给定目标目标 Mask 的情况下对图像进行局部编辑。然而,这种方法需要研究中的视觉-语言模型的注意力 Mask 。SPEC [27] 提出了一种基于扩散的画布填充方法,用于生成仅有四种最小变化(大小、位置、数量和存在)的微小差异图像对。与这些现有方法相比,作者为生成最小变化数据而设计的自动化流程在实现复杂场景的最小变化的同时,保持了场景的照片真实感,并在不同类别间控制变化。与之前主要依赖CLIP-based过滤的流程相比,作者的流程还拥有更全面的自动化筛选机制。

利用难例负样本增强VLM的细粒度理解: 大多数旨在增强如CLIP这样的基础VLM的细粒度理解的努力,都集中在使用基于标题的难例负样本进行微调 [39; 43; 31],以及设计损失函数以更好地利用这些难例负样本的学习信号 [43]。生成文本难例负样本的策略包括:(1) 如随机词交换 [40] 的启发式规则;(2) 使用语言模型进行词替换 [43; 5];(3) 使用场景图信息 [7; 31];(4) 将LLM与语义分割集成 [6]。关于视觉难例负样本的微调工作有限。一些方法,如NegCLIP [39] 和General Scene Difference [15],分别在模型微调和模型训练期间使用近邻图像作为视觉难例负样本。然而,近邻图像在上下文或构图上的差异通常太大,缺乏细粒度的视觉差异。同样,SpotDiff [10] 使用来自视频监控素材的邻近帧进行模型学习,但这些帧通常彼此太相似,缺乏清晰的语义差异。因此,这些数据并不理想,不能用于教导模型理解目标、属性、计数、空间关系等细粒度语义概念。与作者的工作最接近的是SPEC [27] 和CounterCurate [42],它们与作者的工作类似,使用最小变化的视觉难例负样本来微调VLM。虽然SPEC只微调了CLIP,但CounterCurate和作者的工作还额外研究了使用视觉难例负样本对多模态大型语言模型进行微调。此外,与SPEC和CounterCurate不同,作者的评估更为全面;作者评估了在10个分布外基准测试中微调后模型的性能,而SPEC和CounterCurate分别只进行了1个和2个评估。同时,作者的微调模型在大多数情况下都超过了所有 Baseline 模型,突显了作者所采取方法的有效性。

3 Minimal-Change Image-Text Dataset Creation

作者设计了一个框架,用于合成大规模的最小变化数据,并推出了VisMin基准测试(参见概述图2)。该流程包括三个阶段:最小变化对合成,在这一阶段作者对图像和文本对进行最小程度的编辑;自动筛选,这一步验证文本和合成图像的忠实度;以及人工验证,一个四步流程确保只有符合所有质量标准的数据被包含。作者将详细讨论每个阶段。

LLM-guided Edit Instructions Generation

为了生成变化最小的文本对,作者从源标题开始,然后提示一个大型语言模型生成针对每个编辑类别的特定编辑指令以及相应的编辑后标题(详见附录A.1中的提示)。对于目标和属性的编辑,作者使用来自COCO [21]和VSR [22]数据集的人类编写的标题作为作者的源标题。大型语言模型处理这些标题,提出针对特定目标或属性的编辑建议。例如,对于源标题“沙发中间的一只狗”,模型生成了编辑指令“将狗改为娃娃”,其中包含了源短语(“狗”)和编辑后的短语(“娃娃”)。同时,模型还生成了编辑后的标题“沙发中间的一个娃娃”。作者为每个源标题生成了五个合理的(基于LLM提示的准则)编辑指令和编辑后的标题。为确保编辑后的标题相对于源标题变化最小且包含视觉上合理的变化,作者再次提示大型语言模型进行筛选,移除了40%不符合这些准则的总LLM输出(具体准则详见表A.2)。对于计数和空间关系的编辑,由于缺乏合适的人类编写的标题数据集,其中包含对目标计数和空间关系的描述,作者合成了源标题。作者提示大型语言模型创建标题并概述目标布局和边界框。例如,模型可能生成了一个如下标题:“桌上的一盘饼干和一杯咖啡在其右侧”,相应的边界框为:["饼干盘": ]; "咖啡杯": ]。大型语言模型生成了大量此类合成标题。通过基于规则的方法生成编辑指令及其相应的编辑后标题,旨在交换空间关系编辑中的目标位置(例如,_编辑后的标题_:“桌上的一杯咖啡和一盘饼干在其右侧”,_交换后的边界框_:{"第一个裁剪": ; "第二个裁剪": )或调整计数编辑中的目标数量(例如,_编辑后的标题_:“桌上的一杯咖啡”),_移除的边界框_:,在这个例子中移除了饼干盘。

扩散引导的图像合成 作者根据前一步骤中LLM生成的编辑指令修改图像。对于目标和属性的编辑,作者首先使用Grounding-DINO模型[24]在源图像中 Mask 要编辑的目标。作者从COCO数据集中获取源图像。要编辑的目标在编辑指令的源短语中指定(例如,在编辑指令“将狗改为玩偶”中的“一只狗”)。然后,作者应用SDXL修复模型[29],使用 _输入图像、 Mask 区域和编辑短语_(从编辑指令中获得,例如,在编辑指令“将狗改为玩偶”中的“一个玩偶”)来改变 Mask 图像区域以匹配预期结果,例如,将“一只狗”改为“一个玩偶”。对于计数和空间关系的编辑,作者基于前一步骤中LLM建议的布局创建了一个综合生成的源图像数据集,使用LLM引导的扩散(LMD)模型[20]进行图像合成。为了创建编辑后的图像,对于空间关系编辑,作者首先使用基于规则的方法重新定位源图像的边界框。然后,作者从源图像中获得与需要相互重新定位的目标相对应的图像裁剪。最后,作者使用GLIGEN布局扩散模型[19]将获得的裁剪平滑地插入到重新定位边界框位置的源图像中。对于计数编辑,作者通过总是从源图像中移除一个或多个目标来获得编辑后的图像。要移除的目标通过 Mask 指定,作者使用Lama模型[32]执行目标移除。作者采用基于布局的扩散模型[20, 19],而不是使用端到端的扩散模型,如Stable diffusion[29],因为基于布局的模型可以精确控制目标的位置和数量,从而确保更改忠实于编辑指令并且最小化。不幸的是,端到端模型如Stable Diffusion在精确编辑目标位置和数量方面并不擅长。

第2阶段:自动过滤 为了确保合成的硬负样本图像的一致性,作者使用基于视觉问答(VQA)的过滤系统,该系统被证明比目标检测更有效(见图2的第2阶段)。问题使用基于LLM[11]的方法生成,根据 _编辑指令和编辑标题_,遵循TIFA方法[9]。这些问题确保编辑图像与编辑标题的忠实度,并确认正面标题不再适用于负面图像。LLaVa 7B模型[23]回答这些问题以评估编辑。对于目标和属性编辑,区域特定问题确保忠实度,而全局问题确认背景未改变。对于空间关系和计数,VQA系统验证指定位置的目标。这个过程大约过滤掉了75%的合成图像,确保只有最准确的示例用于数据集创建。

第3阶段:人工验证为了确保基准质量,作者使用亚马逊机械土耳其(Amazon Mechanical Turk)进行验证,以补充自动化过滤。自动生成的图像和标题必须经过四个步骤,每个步骤至少有五分之四的标注者同意其有效性。这些步骤包括:(1) 自然性和图像-文本匹配验证:在这一步中,人类评估数据样本,使用以下三个标准:a) 图像是否看起来自然,b) 标题听起来是否有意义,c) 图像是否与标题匹配,解决自动过滤的局限性并对操纵保持鲁棒性[8]。只有26%的合成图像通过这一步,突显了人工验证的必要性。低接受率主要与标准a的高拒绝率有关,大多数计数和空间关系合成图像看起来并不自然。有关每个标准的详细接受率,请参见表1。请注意,作者旨在创建一个平衡的基准。为了解决计数和空间关系类别的高拒绝率问题,作者从这些类别中增加了更多的样本。

(2) 视觉编辑验证

确保图像准确反映了指定的最小编辑结果,并且没有额外的变化,接受率为84%。(4) 文本编辑验证

令人惊讶的是,编辑后的句子精确地反映了最小编辑指令,接受率为95%。在这一步骤中,标注者还对编辑类型进行分类,以验证大型语言模型(LLM)的自动分类。这些步骤确保图像和标题都实现了最小、有针对性的变化,从而产生了一个高质量的细粒度视觉理解基准。有关给标注者的详细指导,请参见附录A.3。

4 Training and Benchmark sets

在作者的研究中,作者创建了训练集和基准测试集,以改进和提高VLMs在细粒度理解方面的能力。训练数据是通过具有自动筛选功能的可扩展 Pipeline 生成的,而基准数据则经过额外严格的人工验证以确保高质量。对于目标和属性,依赖于自然图像编辑的部分,作者从VSR(源自COCO的图像)和COCO 2017训练集(118K图像)获取训练数据,而基准数据则来自COCO 2017验证集(5K图像)。这确保了基准图像在训练期间未被看到,从而根据社区标准保持了评估的可靠性。训练数据集包含64,392个样本(37,017个目标,10,352个属性,10,050个计数,6,973个关系),而VisMin基准测试集包含2,084个样本(579个目标,294个属性,589个计数,622个关系)。作者力求在各个类别之间保持平衡的基准,然而VisMin中属性样本的数量相对较低。这是因为作者使用大型语言模型(LLM)对COCO 5K验证集提出编辑建议,而它仅对2000个样本提出了属性编辑建议,主要是颜色变化。为了避免使属性基准产生偏差,作者对颜色实例进行了降采样。图3展示了子类别,提供了VisMin中变化类型的概览。关于训练集子类别的详细信息,请参阅附录14。对于定性样本,请参考附录17和附录18。

在表2中,作者全面比较了VisMin与几个类似的基准测试。视觉最小化HN:此标准评估视觉硬负样本是否包含最小变化。Winoground和MMVP中的正样本和硬负样本常常在多个方面(目标、属性、背景等)存在差异。相比之下,作者基准(VisMin)中的硬负样本仅在一个方面存在差异,同时尽可能保持其他方面不变。这种最小变化的特点也存在于一些现有基准中,例如What'sUp、EQBEN、SPEC、ImageCoDe(对于部分图像)以及CounterCurate(对于部分图像)。视觉复杂性:此标准评估基准中出现的视觉场景的复杂性。ImageCoDe和EQBEN主要包含来自少数有限视频域和图形引擎的图像,而What'sUp则由简单的家庭和桌面图像组成。SPEC使用扩散模型生成简单的场景。相比之下,Winoground利用Getty Images的专家策划图像,而MMVP则利用ImageNet和LAIONAesthetics。VisMin和CounterCurate(同时期的工作)通过分别整合COCO [21]和Flicker30K Entities [28]中多样且复杂的日常场景而脱颖而出,这些场景包含日常环境中的常见目标。文本复杂性:诸如ImageCoDe、Winoground和MMVP等基准使用自由形式的、人工编写的标题。相比之下,专注于空间变化的What'sUp和专注于受控变化的SPEC则使用基于模板的标题,这些标题常常缺乏多样性。EQBEN和CounterCurate均使用自由形式(人工编写或LLM生成)和基于模板的标题混合。VisMin结合了人工编写和LLM生成的自由形式标题,为基准提供了足够的文本复杂性。

人工验证:对于使用合成图像的基准,如EQBEN、SPEC、CounterCurate和VisMin,人工评估对于确保图像的自然观感至关重要。此外,对于自动生成硬负标题的基准,人工验证同样至关重要,因为除非它们使用像What'sUp中那样定义明确的模板,否则这些标题可能包含不合理的叙述。自动生成的、不合理的标题使得VLMs更容易将这些标题识别为错误[8]。值得注意的是,VisMin是唯一进行人工验证的基准,确保了所有标题和图像的高质量和可靠性。请注意,CounterCurate也进行了人工验证,但仅验证图像-标题的一致性(在300个示例的子集中);他们没有验证合成生成的图像是否看起来自然,以及合成生成的标题是否有意义。规模:此标准评估数据集中的样本数量。VisMin通过将受控的最小变化与复杂的自然场景和标题相结合,提供了适于稳健评估的最佳平衡。

5 Benchmarking VLMs on VisMin Benchmark

设置作者在VisMin上对现有的前沿视觉语言模型(VLMs)进行了全面基准测试,包括基础的VLMs(如CLIP [30],SigLip [41],BLIP [17]和Coca [37])以及生成式多模态语言模型(MLLMs),包括Llava [23],Idefics2 [14]和InternVL1.5 [2]。此外,还评估了闭源的MLLMs,如GPT4-o [1]和Gemini1.0 Pro [33]。

对于像CLIP这样的基础模型,作者遵循[34]的研究,使用余弦相似度进行了图像文本匹配任务。任务包括两种设置:从两个标题中选择正确的图像以及从两个图像中选择正确的标题。在VisMin示例(见图1)中的配对集中,如果,则文本得分为1;如果,则图像得分为1;当两个得分都为1时,组得分为1。对于MLLMs,作者将这些任务调整为视觉问答格式,提出关于图像和标题匹配关系的二进制问题。为了计算文本得分,作者向模型展示了一个图像和两个标题,使用提示语_“这张图像描绘的是:[还是]?”_。为了计算图像得分,作者向模型展示了两个图像和一个标题,使用提示语_“哪个图像与描述‘{C}’更吻合?第一个还是第二个图像?”_。如果预测答案与真实答案相符,则得分为1。一旦获得两个得分,如果两个个人得分都为1,则组得分为1。

结果表3中的洞见突显了当前模型的关键能力和局限性。文本得分通常超过图像得分,特别是在MLLMs中,文本得分通常是图像得分的两到三倍。相比之下,基础VLMs在图像和文本得分之间的差距较小。作者假设对于MLLMs来说,图像得分低于文本得分,因为它们缺乏对多图像的训练,并且简单的垂直连接并不能提供足够的视觉信号,导致与标题的对齐不理想。值得注意的是,支持多图像处理的Idefics2在文本和图像得分上的表现相似,强调了预训练期间多图像数据的重要性。基础VLMs较高的文本得分表明,区分标题比区分图像更容易,这突显了作者对图像区分能力的提升需求。


所有模型在目标和属性划分上的表现都很好,这表明理解语义变化与识别能力密切相关。在图像分类方面表现优秀的模型往往在这些任务上表现得更好,这反映了它们具有不需要高级推理的基础理解能力。例如,使用SigLip(ViT-L/16)视觉编码器的Idefics2模型,在与强大的LLMs结合时,其表现不如其基础VLM对应模型,这可能是由于MLLMs在多图像理解方面的局限性所致。空间关系划分严重依赖于推理能力,LLMs在这一方面超过了基础模型。这表明LLMs可以通过推理来解析目标之间的关系。然而,现有的VLMs在空间关系处理上存在困难,其得分常常低于随机概率,这指出了模型中可能存在的偏见,并突显了未来研究的领域。

作者通过亚马逊土耳其机器人(Amazon Mechanical Turk)记录了人类在基准测试中的 Baseline 性能(具体细节见附录A.4)。在图像评分方面,人类通常表现得比模型更好,但在属性类别中,GPT4-o模型表现卓越。在文本评分上,模型通常超越人类,特别是在属性和物体方面。然而,在空间关系和计数方面,人类在团体评分上显著优于模型,这突显了模型需要改进的领域,同时也展现了人类对场景理解的能力之强。

6 Enhancing fine-grained understanding in VLMs

作者采用一个合成的最小变化数据集来通过额外的微调增强VLMs的细粒度理解。使用具有最小差异的图像和标题对的训练提供了更丰富的训练信号,从而提高了模型在细粒度理解任务中的性能。作者通过在多个基准测试上进行广泛的评估,证明了在基础VLMs和MLLMs上的改进:(1)单图像基准测试检验单一图像与多个标题之间的对齐情况:VSR [22],CountBench [25],VALSE [26],SPEC [27],以及Sugarcrepe [8]。(2)多图像基准测试检验多个图像与标题之间的对齐情况:ImageCode [13],MMVP [35],Whatsup [12],Winoground [34],EQBEN [36],以及作者自己的VisMin基准测试。

Fine-tuning Foundational VLMs

作者使用合成的最小变化数据集来提高视觉表现,而不改变训练方法。作者构建了包含源图像-文本对和编辑图像-文本对的训练批次:在原始的CLIP训练中,一个迷你批次是 ,其中的对是随机从数据集中抽样作为随机负样本。使用最小变化数据,作者添加了编辑的图像-文本对作为困难负样本,结果是 ,其中 是 的编辑对。作者使用总共128的批次大小,在4个A100 GPU上训练,并保留来自OpenCLIP [3]的其他训练协议和超参数默认值,包括学习率为1e-05,权重衰减为0.2,Adam 为0.9, 为0.98,一个eps为1e-06,以及余弦调度器。训练持续5个周期,作者根据单独的VisMin验证集选择预训练权重。

作者在最小变化数据上对预训练的CLIP进行了微调,作者称之为VisMin-CLIP。为了提供全面的比较,作者使用相同的预训练CLIP模型实现了三种现有模型:NegCLIP [39],CounterCurate-CLIP [42] 和 SPEC-CLIP [27],使用它们各自的训练集。在作者的NegCLIP实现中,作者使用了NegCLIP微调方法,该方法涉及使用自动生成的困难负样本标题以及最近的邻居图像作为困难负样本图像(以及它们相关的人类编写的标题)来微调CLIP。对于CounterCurate-CLIP,作者使用了CounterCurate困难负样本图像-标题数据,其中包括三种类型的困难负样本:属性、位置和计数。位置和计数的困难负样本是最小变化的,而属性困难负样本则不是。作者训练了一个模型,其中混合了所有三种类型的困难负样本,而原始的CounterCurate-CLIP则为每种类型训练单独的模型。对于包含六个类别特定数据划分(绝对大小、相对大小、绝对空间、相对空间、存在和计数)的SPEC-CLIP,作者在合并的数据集上进行了微调。所有模型的批次构建过程类似,确保在有效批次大小内包含困难负样本。如果由于每个正样本对困难负样本数量的变化,困难负样本的总数超过了批次大小,则多余的困难负样本将包含在下一个批次中。作者这样做是为了确保与VisMin-CLIP进行受控的比较。所有模型使用ViT-L/14作为它们的 Backbone 网络,并使用原始的CLIP损失,从OpenAI预训练权重初始化。NegCLIP和CounterCurate-CLIP的最佳预训练权重是根据它们各自的验证集选择的,而SPEC-CLIP是基于跨基准测试的平均性能选择的,因为它没有单独的验证划分。这些受控的实验比较,包括VisMin-CLIP、NegCLIP、CounterCurate-CLIP和SPEC-CLIP,将有助于作者理解这四种方法中哪种困难负样本数据生成方法更有助于提高预训练CLIP模型的细粒度理解能力。

表5:在其他单一和多图像视觉细粒度理解基准上的评估。所有模型采用ViT-L-14作为视觉编码器。CB指的是CountBench,SG指的是Sugarcrepe,IC指的是Imagecode。I2T和T2I表示标准的图像到文本和文本到图像检索指标。在CLIP家族中表现最佳的模型以蓝色突出显示,表现最佳的MLLM模型以绿色突出显示。

结果 作者在VisMin基准测试上评估了这些模型(结果见表4)。使用最小变化数据的微调显著提高了CLIP在目标、属性和计数类别上的性能,这证明了作者的最小变化数据在提高如CLIP这样的基础视觉语言模型在细粒度理解方面的有效性。除了空间关系外,VisMin-CLIP在所有类别上均一致优于NegCLIP、CounterCurate-CLIP和SPEC-CLIP。这表明与NegCLIP中的最近邻图像以及不完全是最小变化的CounterCurate和SPEC数据相比,视觉最小变化数据在提高CLIP模型在细粒度理解能力方面更有帮助。作者进一步对微调后的CLIP模型在其他细粒度理解基准测试(超出作者的VisMin基准测试)进行了零样本评估,以测试它们的泛化能力(见表5)。在18个任务中,VisMin-CLIP在11个任务上表现最佳。相比之下,NegCLIP、CounterCurate-CLIP和SPEC-CLIP分别在3个、1个和3个任务上取得了最高性能。重要的是,所有模型在这些基准测试上的表现均优于预训练的CLIP模型。对于强调计数和空间关系推理的基准测试,作者的VisMin训练数据相较于其他模型显示出显著的改进。例如,在CountBench基准测试上,作者分别比NegCLIP、CounterCurate-CLIP和SPEC-CLIP提高了9%、19%和17%。同样,在空间推理基准测试(SPEC [27],Whatsup [12],和VSR [22])上,作者观察到NegCLIP平均提高了7.79%,CounterCurate-CLIP平均提高了5.21%。尽管SPEC基准测试对SPEC-CLIP来说是分布内的,导致了其最佳性能,但VisMin-CLIP在SPEC基准测试上仍然优于其他模型。这表明作者的最小变化数据有效地从根本上增强了CLIP的细粒度理解能力。对于VALSE [26]和SugarCrepe [8],作者发现NegCLIP表现最好。作者假设这是因为这些基准测试中的文本硬负样本生成过程与生成NegCLIP微调数据的过程非常相似,使得这两个基准测试对于NegCLIP来说更接近分布内,与其他方法相比。

此外,作者的最小变化数据在多图像理解基准测试中显著优于其他数据。在这样视觉最小变化数据上的微调增强了模型区分相似图像的能力。作者在评估模型在组合推理和相似图像的细粒度理解方面具有挑战性的基准测试(如Winoground、MMVP和EQBEN)上观察到了显著的改进。作者的方法明显提高了文本分数,在Winoground上提高了6%,在EQBEN上提高了18%,超过了 Baseline CLIP,这表明最小变化图像有效地对齐了视觉和文本特征空间。VisMin-CLIP在最多任务数上超过了其他模型,证明了其在多图像设置中的优越性能,并在其他基准测试(除SPEC基准测试外)上取得了相当的结果。最后,值得注意的是,作者在所有旨在提高CLIP细粒度理解的方法中使用最少的样本数量(例如,VisMin训练中为65K,而SPEC中为637K)。

进一步的实验揭示了几项关键发现:(1)可扩展性:如图4所示,作者评估了不同规模的OpenAI CLIP模型——B/32和L/16。在经过作者的合成数据训练后,较大的模型在单幅图像和多幅图像基准测试中均表现出性能提升。这种改进可能是因为理解微小变化是一项复杂的任务,需要模型具备强大的能力。例如,在单图像和多图像基准测试中,作者测试的最小模型ViT-B/32(1.4962亿个参数)相比于 Baseline CLIP,VisMin-CLIP分别表现出2.37和3.24的提升。当模型容量扩展到ViT-L/14(4.2762亿个参数)时,相应的提升分别增加到6.88和9.21。这些结果突显了作者的数据在提高模型性能方面的可扩展性和有效性。(2)增强原始能力:除了在细粒度理解任务上的改进外,作者的数据训练还在标准检索任务上提升了性能,如图5所示。这表明,模型从微小变化任务的训练中获得了更好的对齐,说明作者的数据普遍适用于各种跨模态任务。

Fine-tuning Multimodal Large Language Models (MLLMs)

作者使用Idefics2 [14]来提高对细粒度理解的能力,并采用作者指令格式化的数据集。鉴于其在多模态交互和高级多图像处理方面的专长,作者选择Idefics2是因为其开源的可访问性、模型大小和领先的零样本性能。

数据集及QLoRa微调 作者的数据集_VisMin Instruct-IT_是通过基于规则的方法创建的图像-文本对。作者重新制定了这些对,以适应多语言模型,其任务是基于给定的标题从两个选项中选择正确的图像,或者为图像从两个可能性中选择适当的标题。尽管基础ldefics2模型是使用序列中可变数量的图像进行训练的,但作者将其限制为两个图像,以包括VisMin中的一个正样本和一个困难负样本。作者使用QLoRa技术[4]对ldefics2-8B模型进行微调,更新了语言模型和模态连接器(包括感知器重采样器)的 Adapter ,仅使用1个A100 80GB GPU。作者使用了4位量化,LoRa的和,学习率为。模型经过一个时期的微调,累积批处理大小为。

结果 微调后的ldefics2模型在VisMin上(见表4)所有类别中均显示出显著的改进,与GPT4-o(见表3)相当。这些结果证明了作者最小变化数据在增强多语言模型细粒度理解能力方面的有效性。改进最显著的是空间关系类别,文本、图像和组别分别提高了64.4%、57.2%和64.5%。这与CLIP观察到的行为形成对比,后者使用最小变化数据的微调并未提高空间理解能力。微调ldefics2带来的改进也转移到了其他细粒度视觉基准测试上,总体提高了>5%(见表5的结果)。为了进一步测试微调模型的泛化能力,作者在不关注细粒度理解的基准测试上评估了其零样本性能,例如MMMU[38]和POPE [18]。结果在图5(右)中报告。作者注意到,微调模型在POPE基准测试上保持了与预训练模型相当的性能,但在多选题任务MMMU基准测试上的性能有所下降。作者认为这可能是由于作者微调数据中的二选一任务格式所导致的。这些观察表明,结合作者的微调数据与指令调优数据集有潜力带来改进,但由于对8B模型使用额外数据进行微调需要大量的GPU资源,因此作者没有进一步研究。

7 Conclusion and Limitations

作者介绍了VisMin,一个用于评估CLIP、SigLIP、LLaVA和ldefics2等视觉语言模型(VLMs)在细粒度视觉理解方面的基准。尽管VLMs在识别物体和属性方面表现出色,但在计数和空间关系处理上存在困难。

为了弥补这些不足,作者在最小变化数据集上对CLIP和ldefics2进行了微调。微调显著提高了这两个模型在物体、属性和计数方面的表现。

在空间关系方面,CLIP的提升有限,而ldefics2则显示出显著的进步。微调还提高了CLIP在COCO检索任务中的图像文本对齐能力。这些结果突显了作者的数据集作为VLMs强大训练资源的潜力。局限性:尽管进行了自动过滤,但最小变化训练数据中仍包含噪声,例如图像变形和由于当前扩散模型限制导致的文本图像不匹配。未来扩散模型的进步预计将改善这种最小变化的编辑能力。

作者的实验使用了统一的简单提示以实现一致的评估,这可能以不同的方式影响了模型性能。

参考

[1].VisMin: Visual Minimal-Change Understanding.

0 人点赞