NODE-Adapter:神经常微分方程助力更优视觉-语言推理!

2024-07-31 16:46:56 浏览数 (2)

在本论文中,作者考虑了基于原型的视觉-语言推理问题。作者观察到现有方法面临三大挑战:

  1. 资源需求的增加和训练时间的延长;
  2. 应对过多的可学习参数;
  3. 仅基于单一模态的微调;

这些挑战将阻碍它们将视觉-语言模型(VLMs)适应于下游任务的能力。受到这一关键观察的启发,作者提出了一种新颖的方法,称为NODE-Adapter,该方法利用神经常微分方程进行更优的视觉-语言推理。 为了充分利用视觉和文本模态,并更有效、更准确地估计类别原型,作者将方法分为两个阶段:跨模态原型构建和利用神经常微分方程进行跨模态原型优化。具体来说,作者利用VLM将手工制作的提示编码为文本特征,将少样本支持图像编码为视觉特征。 然后,作者分别通过对文本特征和视觉特征取平均来估计文本原型和视觉原型,并将文本原型和视觉原型自适应地结合构建跨模态原型。 为了减轻原型偏差,作者将原型优化过程建模为一个初值问题,使用神经常微分方程来估计连续梯度流。 作者广泛的实验结果,包括少样本分类、域泛化和人-物交互视觉推理,证明了提出的方法显著优于现有的最先进方法。

I Introduction

最近对预训练的视觉-语言模型(VLMs),如CLIP [1],的研究表明,基础模型在众多开放词汇任务中表现出色。这些模型利用它们从大量的图像-文本对中理解的视觉概念,在各个下游任务中展示出了令人印象深刻的能力,通常使用零样本或小样本学习[1]。

虽然零样本CLIP模型在多样化的视觉任务中表现出强大的性能,但其预训练的本质限制了它适应新、未见领域的能力。因此,许多研究致力于通过开发基于训练样本的可学习提示来增强这些预训练VLMs,以用于特定的下游任务。这些微调方法可以分为输入阶段提示方法和特征阶段微调方法。

特别是,输入阶段提示通过在输入层面整合可训练提示来修改下游任务中的文本分类器,当使用小样本示例时,显著优于零样本CLIP,如CoOp [2]和CoCoOp [4]的研究所示。然而,这种方法在视觉-语言模型(VLMs)中有一个显著的缺点:它需要在每个训练迭代中通过文本编码器处理数据,增加了对资源的需求并延长了训练时间。

图1:各类别分别展现出独特的视觉和文本特征空间。不同类别的图像可能在视觉特征上相似但在文本特征上不同,反之,同一类别的图像可能展现出多样化的视觉特征。作者的目标是利用这两种模态来提升在小样本分类场景下的性能。

相反,只使用一次文本编码器,特征阶段的典型微调通过简单而有效的特征调节,在输出阶段为特定任务改进文本分类器或视觉特征。例如,CLIP-Adapter [10] 采用单一瓶颈层来修改VLMs中的文本和视觉嵌入,使得在单样本ImageNet设置下比零样本CLIP提高了3.02%。同样,TaskRes [16] 使用可学习的、特定于任务参数,作为调整文本嵌入的模态无关残差。另一种新兴方法通过将CLIP与其他预训练的主要视觉或语言模型(如DINO [17] 和 GPT [18])集成,增强下游任务现有的知识。然而,大多数关于VLMs适应的特征阶段微调工作中存在两个局限性:1) 仅从单一模态获取特定于任务的知识,例如TaskRes [16] 和 Tip-Adapter [14],这些方法仅基于视觉或文本特征进行微调。然而,如图1所示,作者观察到不同类别的图像可能共享相似的视觉特征但在文本特征上有所不同,反之,同一类别的图像可能共享相似的文本特征但展现出多样的视觉特征。因此,仅基于单一模态的微调将阻碍其适应下游任务的能力。2) 学习参数过多,例如Tip-Adapter [19] 和 Tip-X [20],这些方法直接将先验知识融入到训练过程中。然而,它们通常很笨重,因为它们需要较大的缓存大小和大量的可学习参数。

为了缓解上述局限性,在本文中,作者提出了一种称为NODE-Adapter的新方法,该方法利用神经常微分方程进行更好的视觉-语言推理。作者用两个阶段优化估计的类原型:跨模态原型构建和利用神经常微分方程进行跨模态原型优化。如图2所示,图片(a)和(b)展示了跨模态原型构建的过程。图片(c)表示利用神经常微分方程进行跨模态原型优化的过程,而图片(d)显示了最终结果。具体来说,作者利用VLM将手工制作的提示编码为文本特征,将少量样本支持图像编码为视觉特征。作者通过分别平均文本特征和视觉特征来估计文本原型和视觉原型,并将文本原型和视觉原型自适应地结合来构建跨模态原型。然而,由于计算平均值与实际原型之间的不一致,这种方法面临着原型偏差问题。这种偏差源于标记样本数量不足,阻碍了原型准确均值估计。

为了解决原型偏差问题,作者提出了一种新颖的神经常微分方程(Neural ODEs)模型,以连续时间动态优化原型。作者的方法源于这样的认识:梯度下降中的梯度流可以类比为欧拉方法,后者是一种用于求解常微分方程(ODEs)的数值方法。这种理解使作者能够使用ODEs框架建模连续梯度流,并应用神经ODEs更有效地改进视觉-语言任务中的原型。具体来说,作者开发了一个神经ODEs模块,用于估计原型优化的连续时间梯度流动态。从初始估计的跨模态原型开始,作者的方法通过求解神经ODEs来迭代改进这个原型,以获得优化的跨模态原型。神经ODEs使用一个黑箱ODE求解器,这使得能够应用伴随敏感方法。因此,这种方法确保了恒定的内存成本,从而提高了计算效率。在获得优化的跨模态原型后,通过最近邻策略确定测试图像的类别成员资格。

作者的贡献可以总结如下:

  • 作者提出了一种称为NODE-Adapter的最新方法,为下游任务适配CLIP提供了一种新颖的原型基础方法。
  • 作者首先自适应地综合文本特征和视觉特征构建跨模态原型,然后利用神经常微分方程减轻原型偏差。
  • 作者在少样本分类、域泛化和人类-目标交互的视觉推理任务上进行了广泛的实验。结果显示,作者提出的方法显著优于现有最先进的方法。

本文剩余部分的结构安排如下:第二节回顾了相关工作。第三节作者介绍了CLIP的回顾和提出的NODE-Adapter方法。第四节提供了实验设置细节和实验结果分析。最后,第五节总结了论文,并对未来的工作方向提出了建议。

II Related Work

在本节中,作者回顾了关于视觉-语言模型、视觉语言模型的适应性调整、人-物交互(HOI)检测以及神经常微分方程的相关工作。

Vision-Language Models

图2:原型校正说明, 和 分别是类别 的 Query 样本。对于类别 i、j 和 k, 是视觉原型, 是文本原型,而 是跨模态原型。(a) 最初两个 Query 样本被错误分类。(b) 跨模态原型纠正了 的分类。(c) 跨模态原型通过神经常微分方程进一步校正。因此,在 (d) 中,两个 Query 样本在时间 时都被纠正。

人们投入了大量努力开发大规模预训练的视觉-语言模型(VLMs),旨在通过自然语言监督获取全面的视觉表征[1, 21, 22, 23, 24]。当前的研究努力已经深入探讨了语言和视觉模态之间的语义对齐,利用网上丰富的图像-文本对[1, 25, 26]。值得注意的例子包括通过在4亿精心策划的图像-文本对上进行对比学习得到的CLIP[1],以及利用从原始替代文本数据中获取的18亿个噪声图像-文本对的ALIGN[25]。还有许多其他探索大规模VLMs领域的倡议,包括CoCa[26],SimVLM[27],Florence[28],BEiT[29],Flamingo[30],PaLI[31]。研究行人的演示强调了大规模预训练VLMs在处理各种跨模态对齐、零样本和少样本图像识别任务[1, 32, 33]中的多功能性。

Adaptation of VLMs for Few-shot Learning

适应方法是应用视觉-语言模型(VLMs)到不同下游任务的关键。 本研究特别针对小样本图像分类,将近期的研究工作分为提示学习方法和 Adapter 风格方法。

提示学习方法。 这些方法从自然语言处理中前缀调优的成功中汲取灵感[34, 35]。在这一领域的开创性工作中,CoOp [33] 通过优化可训练的向量来增强提示上下文。扩展这种方法,周等人[4]通过在每张图像上条件向量生成来解决未见类别的泛化问题。为了防止提示学习忘记通用知识,ProGrad [36] 建议用良好对齐的梯度更新提示。其他研究探索了VLMs的提示学习;例如,CPL [37] 在视觉和文本模态间实现了更好的一致性,而ProDA [38] 从有限的支撑集中捕捉多样的提示分布,适应不同的视觉表示。DPT [39] 建议同时学习文本和视觉提示。

** Adapter 风格方法。** 这类方法是受到参数高效的微调技术[40]的影响,直接修改CLIP的视觉和文本编码器生成的表示。例如,CLIP-Adapter [41] 引入了额外的特征 Adapter 来增强传统的微调结果。TT-DNA-Adapter在测试期间全程执行[42]。Tip-Adapter [19] 通过创建一个具有低样本的键值缓存模型来提高结果。APE [43] 通过微调其在视觉表示中的预训练知识,有效地将CLIP适应于小样本分类。GraphAdapter [44] 通过使用双重知识图明确地结合双重模态结构知识来增强文本 Adapter 。而CaFo [45] 则结合了来自不同预训练范式的多样化先验知识。作者提出的方法属于 Adapter 风格方法类别。

Human Object Interaction Detection.

人体-物体交互(HOI)检测是计算机视觉中的一个基本任务,重点关注在图像中识别人体与物体之间的交互[46, 47]。近年来,已经提出了各种方法来解决这一任务。InteractNet [46]提出了一种新颖的以人为中心的方法,用于在日常照片中检测(人体,动词,物体)三元组。Chao等人[48]提出了一个新的基准数据集和一个新颖的人体-物体区域基于卷积神经网络(HO-RCNN)方法,该方法利用了一种名为Interaction Pattern的新型DNN输入来提高HOI检测的性能。Wang等人[47]将HOI检测视为关键点检测和分组问题,并提出了一种新颖的全卷积方法,通过预测交互点并将它们与人体和目标检测相关联,直接检测人体与物体对之间的交互。HOITrans [49]通过从全局图像上下文中推理物体和人体的关系,直接并行预测HOI实例,从而无需许多手工设计的组件。

人体物体交互的视觉推理。理解视觉关系是人类感知视觉世界的一个关键方面。在这种背景下,Bongard-HOI [50]是一个最近引入的基准,强调从自然图像中组合学习HOIs,这对当前的视觉识别模型提出了重大挑战。领先的检测模型HOTrans [49]在少样本二进制预测任务中仅达到62%的准确率。然而,基于CLIP的TPT [51]和BDC-Adapter [52]在没有在训练分割上训练的情况下显示出有希望的结果,这表明了一种用于HOI的多模态推理新范式。作者在这一任务上评估作者提出NODE-Adapter方法,以证明其在视觉关系推理中的有效性。

Neural Ordinary Differential Equation

神经常微分方程(Neural ODEs)[53]代表了一种创新的深度隐式学习方法,它被概念化为残差网络[54]的连续扩展。在神经常微分方程中,隐藏状态的演变是连续的,并由一个由神经网络建模的常微分方程所控制:,其中是一个由参数化的神经网络。特别是,是一个包括线性(全连接)或卷积(CNN)层的标准深度神经网络。在这种背景下,前向传播涉及解决一个常微分方程初值问题,这可以通过一个黑箱常微分方程求解器高效地解决。同时,梯度计算采用伴随敏感性方法,以其恒定的内存成本优势而著称。值得注意的是,这一范式已经在包括预测不规律时间序列[55],医学图像分割[56],扩散模型[57]和少样本学习[58]等在内的多种领域中展示了其有效性。尽管这些不同应用取得了广泛成功,但关于将神经常微分方程用于跨模态少样本学习(Cross-modal FSL)的文献中仍存在一个重要空白。在这项工作中,作者提出了一种新颖的方法,该方法采用基于神经常微分方程的深度学习框架来在跨模态少样本学习的背景下细化原型。作者提出方法的主要优势在于它能够连续捕捉原型动态,由于步长更小,从而实现了更高的性能,进而增强了跨模态少样本学习的整体有效性。

III Methodology

在本节中,作者详细介绍了作者提出的NODE-Adapter,即用于改进视觉-语言推理的神经常微分方程。

Preliminaries

重新审视对比语言-图像预训练(CLIP)。 CLIP包括两个平行的编码器:一个用于图像处理,通常是ResNet [54]或ViT [59],另一个用于文本,基于 Transformer 架构。在训练期间,使用对比损失函数来鼓励图像和文本特征向量之间的相似性,将两种模态对齐在联合嵌入空间中。CLIP模型表示为,其中是文本编码器,是图像编码器。预训练后,CLIP支持在下游任务中使用手工制作的提示实现零样本应用。对于图像分类,给定一个属于特定类别的测试图像,其中和对于类问题,集合中的每个类别与提示“一张”结合,形成类别特定的文本输入。通过提取文本特征,其中。然后,每个文本特征与图像特征结合,计算余弦相似度分数:

使用softmax和温度计算预测概率,定义为:

人类目标交互的视觉推理。 在依赖于上下文的视觉推理领域,例如Bongard-HOI任务 [50],每个测试样本包括两组支持图像和一个 Query 图像,随后进行评估。这些支持图像集描述了特定人类-目标交互(HOI)概念的存在与否,例如“吃橙子”。模型旨在确定 Query 图像中是否存在 Query 的HOI概念。在这个任务中,每个概念被描述为一个视觉关系。在这个关系中,表示主体(在HOI任务中通常是“人类”),表示动作,表示涉及的目标。每个测试样本在一组支持图像中包含一个特定的概念,作为正例。另一组支持图像作为负例,说明一个概念,其中与不同。值得注意的是,任务没有明确提供目标或动作。相反,它依赖于模型的推理能力来预测概念在 Query 图像中是否存在。以前的研究[60, 61]通过在一系列类似的任务上训练模型,利用Bongard-HOI训练划分,以实现对测试样本的稳健推理。在这种情况下,CLIP不需要额外的训练数据,因为它已经拥有各种视觉概念的全面知识。因此,CLIP证明是这类视觉推理任务的合适选择。

Overview of Our Proposed NODE-Adapter

在图3中,作者展示了作者提出的NODE-Adapter方法的概览。对于使用预训练的CLIP模型和新数据集进行少样本学习,每个类别包含个标注图像,形成-shot -class训练样本。作者使用来表示每个类别中的可用样本。作者首先利用CLIP的编码器将图像和提示映射到一个对齐的向量空间中,然后作者计算两种模态基于均值的原型。初始原型被表示为两种模态的条件组合。然而,由于训练数据的限制,初始原型通常表现出偏差。为了减轻这个问题,作者设计了一个端到端的深度学习架构,它从学习到的最优轨迹,其中表示初始输入,表示最优原型。最后,作者将最优原型视为最终原型。给定一个测试图像,作者首先利用图像编码器获取的特征,表示为,然后,作者通过计算和之间的余弦相似度来评估属于类别的概率。在作者的方法中,作者将梯度下降的梯度流建模为神经微分方程,并使用ODE求解器确定神经网络的更新权重。此外,在反向传播过程中,作者采用伴随敏感性方法来最小化计算成本。这个框架确保原型持续细化,从而提高学习过程的整体准确性和有效性。

NODE-Adapter

作者提出的NODE-Adapter包括两个步骤:1)初始跨模态原型构建,2)使用神经ODE进行跨模态原型优化。以下作者将详细阐述每个步骤。

Iii-C1 Initial Cross-modal Prototype Construction

作者现将详细阐述在初始跨模态原型构建过程中涉及的两大主要组成部分。

文本原型在遵循CLIP的零样本设置下,作者首先为特定的类别设计个提示,如“一张的照片”,然后将类别名称放入""中来构建提示,表示为,其中代表提示。接下来,作者可以使用文本编码器生成类别特定的文本特征,表示为:

其中表示通道数。之后,作者可以通过属于第类的文本特征的均值来计算类别的初始文本原型。因此,作者通过以下方式计算文本原型:

视觉原型同样地,对于一个类样本任务,每个类别的视觉原型可以通过其张图像的归一化特征的平均值来获得。在类识别问题中,对于每个类别,作者使用CLIP的视觉编码器生成视觉特征。然后,作者通过这些特征的平均值得到,从而获得视觉原型。

初始跨模态原型受到[62]的启发,对于每个类别,作者通过凸组合融合不同模态的原型,建立一个新的原型,并且

其中系数是一个有条件的学习向量:

Iii-A2 Cross-modal Prototype Optimization with Neural ODEs

尽管跨模态原型更接近真实类别原型,但由于支持数据有限,初始的跨模态原型不可避免地表现出偏差。为了尽可能减轻这种偏差,作者使用神经微分方程(neural ODEs)来优化初始的跨模态原型。

最近的研究[63]表明,梯度下降(GD)的迭代步骤可以被解释为常微分方程(ODEs)的欧拉离散化。当将梯度下降应用于神经网络时,神经网络的更新规则可以表示为:,其中表示神经网络的权重,表示损失函数,是学习率,而是损失函数关于权重的梯度。如果作者定义,其中是一个连续的独立变量,表示原型的连续梯度流。作者可以利用这样的洞察:这种梯度流可以被建模为ODEs,并通过黑箱ODE求解器进行更新,以更准确地近似解的轨迹。作者能否设计一种深度学习架构,它学习底层动态系统,并且行为类似于ODEs? 确实,这是可能的。通过将欧拉方法的步长设置为1,它与残差网络(ResNet)等价:。将ResNet层数的极限设置为无穷大,将离散模型转换为连续神经网络,即神经微分方程。

这种方法非常适合作者的场景。为了减轻梯度偏差,作者可以将原型视为一个ODEs初值问题,并应用神经微分方程来推导最终的跨模态原型,其中初始和最终原型分别对应于基于均值和最优原型。为了有效地利用神经微分方程进行原型优化,并有效解决梯度偏差问题,作者需要配置系统并修改神经微分方程以包含一个附加的输入变量S。作者假设原型是依赖于时间的函数,其中是在之间的连续时间间隔。这里,表示初始的跨模态原型,而表示最优原型。因此,作者可以将神经微分方程重新表述为,其中表示一些学习得到的参数向量,是支持集,是一个由参数化的神经网络。类似于标准的深度学习架构,作者执行前向传播和反向传播来更新神经网络的优化权重。这个框架使作者能够利用神经微分方程的连续性质来细化原型,从而通过解决基于均值的原型中的内在偏差,提高少样本学习模型的准确性和有效性。

图3:作者的NODE-Adapter概述。首先,作者利用CLIP强大的对齐能力来获取原始的文本和视觉类原型。为了利用这两种模态,作者使用一个可学习的向量有条件地将原型组合起来,作为常微分方程的初始值。然后,作者应用神经微分方程来获取梯度,并使用ODE求解器解决初值问题,以最优原型来制定最终的预测。

前向传播: 在前向传播中,通过ODE求解器进行积分来解决问题。最终的原型 是从初始原型 通过在区间 上积分函数 f 得到的:。这里, 表示使用ODE求解器从 到 积分 ,给定初始值 和参数 和 S。这种方法允许准确计算最终的 prototype 。

反向传播: 在反向传播中,作者使用另一个ODE求解器,将最终状态 作为初始值。损失函数 其中输入来自ODE求解器的结果:。在标准神经网络中,梯度 使用梯度下降进行计算,这涉及到对所有层的局部梯度进行求和。然而,这种方法可能受到梯度消失和计算成本增加的影响。在神经ODE中,作者采用伴随敏感性方法来解决这些问题。首先,作者需要确定每个时间步对损失的贡献,通过敏感性 来衡量,定义为 。敏感性的动态由以下方程式控制:。更新伴随状态是另一个ODE问题,可以如下解决:。

接下来,作者计算损失相对于参数 的梯度:。

ODE求解器。在前向传播和反向传播中,都需要一个ODE求解器。在作者的实验中,作者选择了Runge-Kutta 4 (RK4) 方法,因为它具有更高的稳定性和更高级的收敛率。RK4方法的收敛率为4阶,使其成为求解ODE的高效选择。

Estimation Module Based on Gradient Flow

在本节中,如图4所示,作者介绍了梯度估计器(由参数参数化)的设计。直观地说,原型梯度与支持集的分布强烈相关,其中每个样本既包含整个数据域的特征,也包含其类的特征。因此,作者设计了的2阶段网络。第一阶段负责捕捉数据集的分布信息,而第二阶段根据标签评估样本对原型的贡献,并产生相应的权重。最后,通过加权求和的方式估计梯度。

梯度估计器采用基于余弦的分类器,期望原型与每个类的角度中心对齐。为了消除向量范数的影响,作者首先从获得特征,然后为每个样本构建类特定的表示,其中原型和广播样本特征被连接起来。该表示被送入具有参数的全连接层,并通过增强特征和原型之间的差异计算距离梯度:

其中分别表示将广播到所有类的Kronecker积和逐元素乘法的Hadamard积。

自适应权重生成给定的标签可以用来生成梯度的权重。这是基于这样的原理:原型应接近类内特征,同时与其他特征保持较大的距离。这个过程包括表示嵌入层、多 Head 注意力层[64]和权重生成层,通过探索所有样本之间的成对关系来获得健壮的表示,并将它们映射回以产生的适当权重:

其中广播标签是。最后,通过梯度距离的加权求和计算聚合梯度:

其中(经验上设置为0.1)是一个用于随时间调整不同优化周期梯度权重的超参数,以指数衰减形式。

NODE-Adapter Training and Inference

节点 Adapter 训练在训练阶段,作者采用监督对比损失 以交叉熵方式确保视觉特征表示与原型之间的适当映射。给定支持集 和提示集,作者首先通过CLIP的多模态编码器获得编码的视觉和文本特征,然后作者可以生成其视觉和文本原型, 和 ,并将它们的加权和作为初始原型 。接下来,作者在时间 解决ODE以获得校正的原型 。然后,作者可以通过计算 Query 集 中每个样本 的视觉特征与精细化的原型 之间的余弦相似性,评估每个样本属于类别 的类概率,其中 是 Query 集。即:

图4:作者的神经ODEs结构。通过梯度估计器和权重生成器, 可以自适应地捕捉原型动态以执行精确校正。

P(y_{i}=k|mathbf{x}_{i},mathcal{S},mathbf{u},theta)=frac{text{exp}(/tau)}{sum_{j}text{exp}(/tau)}, tag{11}其中<cdot>表示余弦相似性,tau是温度超参数。然后,在支持集mathcal{S}中每个输入图像的预测概率与其对应类别标签之间计算交叉熵损失mathcal{L}_{ce}

其中 是梯度估计器的参数, 分别表示样本图像及其对应的类别编号。

节点 Adapter 推理。在推理阶段,作者将测试样本表示为 ,对于图像及其对应的标签。作者计算图像特征与校正原型的余弦相似性,并选择具有最高相似性的原型对应的类别:

IV Experiments

在本节中,作者进行了涵盖小样本图像分类、域泛化和HOI视觉推理的实验。

Experiment Setup

在少样本图像分类任务中,作者采用了已有方法[19, 33],并实施了一种常规的少样本协议。作者的方法在11个著名的图像分类数据集上进行评估。如表1所示,这些数据集涵盖了各种识别场景,包括通用目标识别,如ImageNet[71]和Caltech101[65];细粒度分类涉及OxfordPets[72],StandfordCars[73],Flowers102[69],Food-101[70]和FGVC Aircraft[68];遥感识别以EuroSAT[67]为特点;在UCF101[75]中的动作识别;SUN397[74]的场景识别;以及包括DTD[66]在内的纹理分类。这一系列数据集共同为评估少样本学习方法的表现提供了一个健壮的基准。关于领域泛化,作者通过在16-shot ImageNet[79]上训练模型,并在四个ImageNet变体上测试模型以评估模型对自然分布偏移的鲁棒性:ImageNet-V2[71],ImageNet-Sketch[76],ImageNet-A[77]和ImageNet-R[78]。这些变体数据集被视为与ImageNet分布不一致的数据,与之前的研究[4, 51]一致。对于人类目标交互视觉推理,作者遵循TPT[51],使用Bongard-HOI[50]数据集。

实施细节。作者的方法基于CLIP框架[1],将ResNet或ViT作为图像编码器,并用 Transformer 进行文本编码。值得注意的是,对于少样本分类,作者使用基于ResNet50的CLIP进行公平比较。在训练过程中,作者保持CLIP的权重固定以利用现有知识。与已有做法一致,作者遵循CLIP的数据预处理步骤[1],包括调整大小、随机裁剪和其他标准操作。在模块中,作者使用具有1024维输出的全连接层作为梯度估计器,一个具有1024维输出的全连接层作为嵌入层,一个具有8个 Head 的多 Head 注意力模块,每个 Head 包含16个单元用于注意力层,以及一个带有softmax的线性层用于权重生成。对于ImageNet和EuroSAT,作者设置了30个周期的训练,而对于其他10个数据集,仅设置20个周期的训练。初始学习率设置为。参数优化使用AdamW优化器[80]和余弦退火调度器。值得注意的是,作者的方法以参数效率和轻量级为特点,仅在一个NVIDIA RTX 3090 GPU上进行训练。作者为初始原型计算手动设计了20个提示。

与传统的图像分类不同,Bongard-HOI上的视觉推理准确性取决于上下文。具体来说,预测的准确性由示例图像是否包含概念c决定,这使得它成为一个二进制的评估。对于二进制标签,简单的提示涉及为正负样本创建手工制作的“标签”。作者对正样本使用True,负样本使用False。作者构建了一个手工制作的提示“一个人{动作}{目标}的照片,它是{类别}”,其中{动作}代表动作,如“喝”、“玩”或“坐在”等;{目标}指的是图像中的目标,如“足球”或“椅子”等;而{类别}是“真”或“假”。提示的一个简单例子:“一个人玩足球的照片,它是假的”。

Performance Analysis

性能分析部分的开始。

V-B1 Few-Shot Learning

图5:在少量学习(基于ResNet-50)上的分类性能比较,即1-2-/4-/8-/16-shot,在11个基准数据集上。左上角是这11个数据集的平均准确率。

作者对提出的的方法与两类基于CLIP的适应方法进行了全面比较:一类是提示学习方法,包括CoOp和ProGrad,另一类是 Adapter 风格的方法,特别是Tip-Adapter-F和APE-T。所有这些方法都基于ResNet-50 CLIP。图5在所有11个数据集上比较了提出的NODE-Adapter与四种 Baseline 方法的性能。作者在图5左上角的子图中展示了平均准确率。作者的方法在各个shot设置下超过了所有现有方法,除了1-shot的OxfordPets场景。作者观察到,与APE-T [19](APE的微调版本,是现有最佳方法)相比,作者的方法在所有11个数据集上一致表现出显著性能优势。值得注意的是,作者的方法在2-shot的情况下,在ImageNet、Caltech101和Food101上的表现优于16-shot的CoOp和ProGrad。此外,作者的方法在4-shot的情况下超过了所有其他16-shot的方法。这些全面的成果证实了作者提出方法的有效性和稳健性能。

Iv-B2 Domain Generalization.

表2汇总了作者的方法与其他最先进方法的性能表现。为确保公正性,作者直接纳入了各自原始论文中报告的 Baseline 结果。值得注意的是,由于某些特定的视觉 Backbone 网络缺少报告的结果,或者与某些 Backbone 网络存在兼容性问题,作者在那些特定的视觉 Backbone 网络上省略了一些 Baseline 的比较。作者的模型是在一个16次射击的ImageNet数据集[79]上训练的。随后,作者在四个未见过的ImageNet变体(ImageNet-V2[71],ImageNet-Sketch[76],ImageNet-A[77],和ImageNet-R[78])上评估了训练后模型的泛化性能。如表所示,作者的方法在两个视觉 Backbone 网络(ResNet-50和ViT-B/16)上一致并且显著地超越了所有 Baseline 。这些结果表明,NODE-Adapter对分布偏移具有卓越的鲁棒性。

Iv-B3 Human Object Interaction Visual Reasoning

作者包含了五种先前的方法进行比较:

(1)CNN-Baseline [60] 是一个在Bongard-HOI训练数据上训练的简单分类器,该模型被训练用来将包含支持图像和 Query 图像的整个训练样本映射到一个二元输出,指示 Query 图像是否包含相应的概念;

(2)Meta-Baseline [61] 将Bongard-HOI数据集中的每个样本视为一个少样本任务。该模型使用针对快速适应新任务的元目标在Bongard-HOI训练数据上进行训练;

(3)ProtoNet [64] 获取一个度量空间的知识,通过计算每个类的原型表示的距离来进行分类;

(4)HOITrans [49],在Bongard-HOI上的先前最佳方法,是一种基于变换的HOI检测模型,因其在各种HOI检测基准测试中的领先准确性而闻名。它通过比较 Query 图像中检测到的HOIs和支持图像中的HOIs来解决Bongard-HOI;

(5)TPT [51] 是基于CLIP开发的,它可以即时学习单个测试样本上的自适应提示。

图6展示了Bongard-HOI数据集 [50] 的几个实例。需要注意的是,每个测试实例实际上包含6个正例、6个反例和1个 Query 图像,这与这里展示的图例不同。如表3所示,作者比较了所提出的NODE-Adapter方法与先前方法的性能。值得注意的是,作者的方法显著优于传统方法,并且与基于CLIP的TPT [51] 和BDC-Adapter [52] 相比,NODE-Adapter 仍然表现出更好的性能。按照姜等人 [50] 详细描述的实验设计,作者在Bongard-HOI数据集的四个不同测试分割上进行了比较。值得注意的是,在Bongard-HOI数据集中,测试图像根据HOI概念在训练数据中的存在情况被分为四个子集,具体来说,就是动作(a)或目标(o)是否出现在训练数据中。其他 Baseline 的成果直接来源于姜等人 [50] 的研究论文,正如标注中指出的。感兴趣的读者可以参考上述论文获取更多详细信息。

Ablation Study

在本节中,作者展示了对作者设计选择的实证分析,并演示了作者方法中各个组件的影响。

V-B1 Contributions of major algorithm components

如表7所示,所有组件都采用最近邻分类策略。值得注意的是,从手工制作提示的平均文本特征派生出的文本原型,性能超过了零样本CLIP。正如预期,跨模态原型超越了视觉原型和文本原型,表明跨模态原型与实际类别原型相比,比单模态原型更接近。通过神经ODE优化,作者的方法在16样本情况下实现了大约2%的性能提升。这一结果证明了神经ODE的有效性,使跨模态原型更接近实际的类别原型。

V-B2 The number of Prompts constructed

图7:在Bongard-HOI [50] 基准上对HOI视觉推理情况的可视化。正面表示文本输入中的‘act’词汇准确反映了图像中描绘的交互,而负面则表示相反。

作者通过改变构建的提示数量来研究的影响,并在表5中展示结果。作者发现当时,作者的方法取得最佳性能。当数量继续增加时,性能下降,因为不同的提示可能包含相同的语义概念,导致次优的文本原型。

Iv-B3 HOI视觉推理情况的可视化

如图7所示。作者将作者的方法与原始CLIP [1]和BDC-Adapter [52]进行比较,在处理行人和物体之间更简单的关系时,所有方法都能正确推理。然而,在处理视觉语义上相似的样本时,CLIP和BDC-Adapter倾向于做出错误的预测,而作者的NODE-Adapter显示出优异的性能。

Iv-B4 Analysis of Integral time

作者在使用ResNet50 CLIP的16-shot ImageNet上进行实验。在这里,作者报告了表5中从1到50的积分时间的测试准确度。可以观察到,当t=30时,作者的类别原型优化模型可以达到最高的准确度。因此,在作者的方法中,作者将T设置为30作为默认值。

Iv-B5 Computation Efficiency

作者在表6中比较了作者的方法与现有方法之间的计算开销。作者的实验使用了NVIDIA RTX 3090 GPU,主要针对16次射击ImageNet数据集的性能评估。如表所示,CoOp具有最小的可学习参数数量,但在整个文本编码器中进行梯度反向传播时需要显著的训练时间和GFLOPs。Tip-Adapter-F缩短了训练时间,但由于对整个缓存模型进行微调,显著增加了可学习参数的数量,尽管它只需要最小的GFLOPs进行梯度计算。相反,作者的NODE-Adapter不仅达到了最高的准确度,还展现了卓越的计算效率:与CoOp相比,所需的GFLOPs减少了1000倍,与Tip-Adapter-F相比,所需参数减少了8倍

Iv-B6 ODE Solver

作者评估了欧拉方法、显式亚当斯-巴什福思(AB)方法、隐式亚当斯-巴什福思-莫尔顿(ABM)方法和四阶龙格-库塔(RK4)方法的性能。表7展示了在16次射击ImageNet数据集上所有方法的结果。作者的定性度量与实证数据一致,表明四阶龙格-库塔方法在性能上超过了欧拉方法、亚当斯-巴什福思方法和亚当斯-巴什福思-莫尔顿方法。

V Conclusion

在本文中,作者解决了基于原型的视觉-语言推理挑战。作者提出了一种名为NODE-Adapter的新方法,该方法利用神经常微分方程(Neural ODEs)来增强视觉-语言推理。

作者的方法旨在通过将过程分为两个阶段:跨模态原型构建和利用神经微分方程进行优化,以有效且精确地估计类别原型。

具体来说,作者使用视觉-语言模型(VLM)将手工提示编码为文本特征,将少样本支持图像编码为视觉特征。通过平均各自的特征并自适应地结合它们形成跨模态原型,得到文本原型和视觉原型。

为了减轻原型偏差,作者将原型优化过程建模为一个初值问题,使用神经微分方程估计连续梯度流。作者广泛的实验评估涵盖了少样本分类、域泛化和涉及人-物交互的视觉推理任务。结果表明,作者提出的方法显著优于现有最先进的方法。

虽然作者目前的方法已经显示出有希望的结果,但仍有许多改进的空间。

作者计划研究高阶神经微分方程(如二阶神经微分方程)在原型优化中的潜力。

此外,作者的方法可以扩展以解决包括图像深度估计和视觉问题回答在内的其他各种任务。

参考

[1].NODE-Adapter: Neural Ordinary Differential Equations for Better Vision-Language Reasoning.

0 人点赞