为了弥合视觉和语言模态之间的差距,多模态大型语言模型(MLLMs)通常学习一个 Adapter ,将视觉输入转换为大型语言模型(LLMs)可以理解的标记。然而,大多数 Adapter 生成一致的视觉标记,而不管提示中提到的具体感兴趣目标。 由于这些 Adapter 对图像中的每个细节分配相等的注意力,并关注整个场景,它们可能增加了LLMs的认知负担,尤其是在处理复杂场景时。 为了缓解这个问题,作者提出了提示感知 Adapter 。这些 Adapter 被设计成能够根据提示的具体焦点动态嵌入视觉输入。 具体来说,提示感知 Adapter 利用全局和局部文本特征,在粗略和精细粒度 Level 上捕捉提示中最相关的视觉线索。这种方法显著提高了LLMs理解和解释视觉内容的能力。 在诸如计数和位置推理等不同视觉问答任务上的实验,证明了提示感知 Adapter 的高效性。
1 Introduction
近期大型语言模型(LLM)的进展显著提高了它们在各类自然语言处理任务中的性能。这些模型能够进行语言理解和逻辑推理,使它们能够处理复杂的语言功能,如总结文本、回答问题、处理对话以及撰写新的文章或论文。然而,LLM本质上受到无法处理视觉信息的限制。这导致了多模态大型语言模型(MLLM)的发展,它们在LLM的基础上集成了视觉处理能力。
MLLM通过综合文本和视觉数据,提供了更加全面的理解和互动,从而拓宽了它们在现实世界中多样化应用的有用性。
为了赋予LLM视觉感知能力,MLLM通常采用一个可训练的 Adapter ,连接一个冻结的视觉编码器和一个冻结的LLM。Adapter 在弥合视觉和语言之间的鸿沟中扮演着关键角色,同时利用LLM强大的推理能力实现深刻的视觉理解。
然而,大多数现有的 Adapter 将视觉块视为单词,直接将这些块转换成LLM可以理解的标记(例如,通过线性投影),而不考虑提示中感兴趣的具体目标。这些对提示不敏感的 Adapter 可能使LLM能够正确分析简单图像,但在理解复杂场景时可能遇到困难。
如图1所示,无论 Query 是“这幅图像中是否有游泳池”还是“桌子上有多少饮料”,这些 Adapter 都一致地将图像转换成相同的标记。因此,随后的LLM必须独立解析场景以推理空间上下文,并将注意力完全转移到“游泳池”或“饮料”上。
一些研究探讨了使用提示来指导 Adapter 行为的方法。例如,Vision-LLM [18]和Flamingo [19]采用交叉注意力机制来学习自适应视觉标记,其中提示词作为 Query ,图像块被视为键和值。Instruct-BLIP [20]首先将提示信息注入到学习到的 Query [21](通过自注意力)中,然后使用交叉注意力来收集视觉线索。这些基于交叉注意力的 Adapter 遇到了两个主要挑战。
首先,它们在单词 Level 搜索视觉线索,从而忽视了捕捉与提示相关区域概览的全局信息。
其次,交叉注意力中使用softmax函数从单词到块的注意力分布规范化,使得每个单词分配的总注意力等于1。这意味着每个提示中的每个单词,包括像“a”、“the”和“is”这样的功能词,都强制对应图像中的一个特定区域。由于这些不相关的单词可能每次都对应不同的区域,这种不切实际的假设可能导致 Adapter 产生不稳定的视觉标记,不可避免地为LLM造成重大混淆。
在本文中,作者设计了一个对提示敏感的 Adapter ,根据提示的全局和局部表示自适应地嵌入视觉输入。作者的 Adapter 包含两个关键组成部分:提示敏感的全局注意力和提示敏感的局部注意力。全局注意力旨在捕捉粗粒度、与提示相关的视觉感知,而局部注意力则专注于细化对特定、细粒度兴趣区域的响应。这种双重方法允许 Adapter 有效地揭示视觉上下文,并根据需要将注意力转移到相关区域。
作者在COCO-QA [22]和MME [23]数据集上进行了大量实验。与对提示不敏感的 Baseline 相比,作者的方法在COCO-QA上显示出显著的改进,分别提高了目标分类、计数、颜色识别和位置推理的性能7.71%、18.42%、12.84%和9.51%。在MME数据集上,它将感知任务和认知任务的总分分别提高了59.43%和46.91%。作者的方法在处理复杂场景和解析复杂问题方面表现出卓越的性能,有效地感知提示并捕捉回答问题所需的信息性细节。贡献如下:
左图: 无提示意识 Adapter 将视觉块视为一种词语,并直接将这些块转化为LLM可“阅读”的标记,而没有考虑到感兴趣的具体物体。在这种情况下,无论问题涉及“水池”还是“饮料”,它们都一致生成相同的标记,并对场景中的每个细节分配相等的注意力,这可能会增加LLM的认知负担。
右图: 有提示意识 Adapter 利用提示收集最相关的视觉线索并生成自适应标记,从而提高了LLM理解和解释视觉内容的能力。
- 在早期的努力中,作者对提示对 Adapter 的影响进行了全面研究。作者的研究表明,提示独立的 Adapter 可能不足以捕捉到视觉理解最有信息量的视觉线索。此外,现有的与提示相关的 Adapter 仍然存在诸如无法关注提示中的关键词语或适当对齐视觉和语义元素等问题。
- 作者提出了根据提示在粗粒度和细粒度上动态嵌入视觉输入的有提示意识 Adapter 。作者的方法为现有的 Adapter 赋能的MLLM提供了有效且方便的注意力机制。
- 在复杂场景理解应用上的实验表明,所提出的方法有效地提高了MLLM的视觉感知和推理能力。相关工作
多模态大型语言模型和 Adapter 。 视觉模型的感知能力与LLM 的推理能力的结合,催生了多模态大型语言模型(MLLM)。在MLLM中,视觉信号被转化为LLM可以理解的标记,通常使用 Adapter 。例如,LLaVA,Shikra,MiniGPT,Matters,PandaGPT,Kosmos[10],和InfMLLM[16]利用线性投影 Adapter 。QWEN-VL[38]和mPIUG-Owl[39]采用类似于Perceiver[40]的架构作为 Adapter 。
自从BLIP-2[21]中引入Q-Former以来,许多MLLM[41; 42]采用了它作为模态对齐的 Adapter 。上述提示独立 Adapter 生成的视觉描述通常涵盖整个图像,而没有强调与提示相关的具体视觉细节。VisionLLM[18],Flamingo[19]及其后续研究[43; 44]利用跨注意力 Adapter 来提高提示意识能力。InstructBLIP[20]和Chector[45]将提示信息通过自注意力整合到学习到的 Query 中,然后使用跨注意力收集视觉线索。这些 Adapter 经常面临诸如无法关注提示中的关键词语或适当对齐视觉和语义元素等问题。
在本文中,作者介绍了一种旨在将视觉信号与文本语义对齐的MLLM新型 Adapter 。
注意力机制。 注意力机制[46]使视觉-语言模型能够在输入中关注相关信息,同时最小化对不相关细节的关注。其有效性和可解释性激发了众多后续研究。例如,[50]引入了硬注意力和软注意力机制,这些机制可以自动学习描述图像的内容。此外,在视觉问题回答(VQA)任务中,关注图像和问题中的相关部分至关重要。因此,共同注意力(Co-Attention)[51]被开发出来,以促进同时对多个输入(即图像和文本)的注意力学习。自注意力(Self-Attention)[52]使单一输入序列中不同位置之间能够互动,从而捕捉相对更重要的内容。借鉴[52; 53; 54]等来源,Transformer[55]作为大型模型的基础组成部分,包含了缩放点积注意力和多头注意力。交叉注意力(Cross-Attention)[56]在Transformer[55]架构内被开发出来,以促进两个不同序列之间的互动。为了增强图像和文本之间的交互,作者提出了全局和局部注意力机制,这些机制可以自动关注文本中提到的感兴趣视觉内容。
3 Proposed Method
在本节中,作者首先简要概述了现有 Adapter 用于多模态大型语言模型(MLLMs)的视觉感知。然后,作者描述了所提出的提示感知 Adapter 如何使MLLM有效地揭示视觉上下文并适应性转移注意力以增强视觉推理。
Preliminary: MLLM and Adapter
多模态语言模型(MLLM)是一种高级的人工智能模型,它可以处理和理解来自多种类型数据(如文本、图像,有时甚至包括音频或视频)的信息。这使得模型能够执行涉及多种交流模式的任务,比仅处理文本的大语言模型(LLM)能提供更丰富的内容理解。MLLM整合了不同领域的功能。例如,它们可以从图像标题中的文本和图像本身的视觉内容中提取意义。这在图像标注、视觉问题回答(VQA)和视频理解等应用中特别有用。
在MLLM中,通常采用一个专门的模块—— Adapter (adapter)来增强模型处理和整合来自不同模态信息的能力。Adapter 特别有价值,因为它们允许预训练模型在不需要对整个模型进行大量重新训练的情况下,适应新任务或模态。正式地说,对于给定的视觉输入,通常会使用一个冻结的视觉编码器(如ViT和Q-Former)来提取视觉特征 ,其中 表示 Patch 的数量, 表示特征通道的数量。由于这些视觉特征对后续的LLM来说不是直接可理解的,因此 Adapter 被训练成将它们转换成LLM可以理解的 Token ,如下所示,
其中 是 Adapter 的可学习参数,, 表示转换后的 Token 数量, 表示LLM输入的维度。在大多数MLLM中, Adapter 实现为一个线性投影层,将视觉特征投射到文本特征空间[11; 12; 14; 15; 13]。此外,Honeybee [17] 中的 Adapter 首先应用卷积转换视觉特征,然后进行下采样,导致 N^{prime}<n
Prompt-Aware Adapter
为了向LLMs翻译信息性的视觉标记,作者可以使用提示来引导 Adapter (adapters)的行为。假设 是提示,其中 表示提示中的单词数, 表示词嵌入的维度。这种机制可以表述如下,
有很多方法可以实现方程(2)。如图2所示,VisionLLM [18] 和 Flamingo [19] 利用文本特征作为 Query ,视觉特征作为键和值在交叉注意力过程中促进模态交互。InstructBLIP [20] 首先将提示信息通过自注意力整合到学习到的 Query 中,然后使用交叉注意力收集视觉线索。总之,这些方法基于交叉注意力,可以表述如下,
其中 , , , 表示矩阵乘法。在本文中,作者使用小写的softmax表示该函数应用于每一行。这种机制导致两个结果:
图2:比较交叉注意力(左)和提出(右)的 Adapter 。(a) VisionLLM [18] 和 Flamingo [19] 这类方法将文本特征作为 Query ,视觉特征作为键和值在交叉注意力中使用。它假设提示中的每个词对应于特定的区域。转换后的视觉标记的数量等于文本特征的数量。(b) InstructBLIP [20] 首先通过自注意力将提示信息注入可学习的 Query 中,然后使用交叉注意力。它假设可学习 Query 中的每个 Query 对应于特定的区域。转换后的视觉标记的数量等于可学习 Query 的数量。(c) 作者的 Adapter 包括全局和局部注意力组件。由于局部注意力使用了新的注意力计算机制,转换后的视觉标记的数量保持不变。
- 注意力。因为交叉注意力中的softmax函数将每个词对所有块的注意力分布进行了归一化,所以分配给每个词的总注意力等于1。具体来说,如果 表示第 个词对第 个块的注意力,那么 。
- 输出。因为提示 在交叉注意力中作为 Query ,导致 。这表明转换后的视觉标记的数量是 (提示中的单词数),而不是 (视觉输入中的块数)。
这意味着提示中的每个词,包括像 "a"、"an"、"the"、"is" 和 "are" 这样的功能词,都被迫对应于图像中的一个特定区域。考虑到这些不相关的词可能每次都对应于不同的区域,这种不切实际的假设可能导致 Adapter 生成不稳定的视觉标记,从而给LLMs带来重大困扰。
全局注意力。为了提取最有信息量的线索,作者提出了一个提示感知 Adapter (如图3所示)。该 Adapter 由一个提示感知的全局注意力组件和一个提示感知的局部注意力组件组成。全局注意力组件在场景 Level 搜索视觉线索,旨在捕捉与提示相关的区域的概览。为此,作者首先利用CLIP的文本编码器提取提示的全局特征。其次,作者使用一个学习过的投影层将全局特征映射到与视觉块相同的空间中,即。第三,将提示的全局特征附加到视觉块上,得到。第四,使用自注意力允许 Adapter 融合全局提示信息,如下所示,
这样,对提示中提到的视觉线索进行了粗略提取。最后,全局注意力在最后一个位置丢弃提示表示,得到个视觉特征,即,其中是特征维度。
局部注意力。全局注意力反映了视觉输入与提示之间的整体相关性。为了捕捉局部细节,作者设计了一个局部注意力组件。首先,局部注意力计算文本特征与视觉特征之间的相似性矩阵,如下所示,
其中和。这里,作者使用大写的来表示该函数是应用于整个矩阵的。与方程(3)中使用的函数相比,表明每个词可能对应于场景中的一个视觉块,反之亦然。这个假设比交叉注意力的假设更加灵活和现实。
其次,中每一行()的和可以被解释为特定块与整个提示描述之间的相关性。因此,作者通过计算所有关注它的注意力之和来计算每个视觉块的权重,如下所示,
其中。然后,局部注意力被应用到视觉特征上。这个过程产生了提示感知的视觉标记。最后,使用多层感知机(MLP)进行转换。
作者的方法本质上与方程(3)中描述的交叉注意力机制不同。在交叉注意力中,提示特征 作用为 ( Query ),视觉特征 作用为 (键)和 (值)。在这里,每个文本标记将其注意力分散到视觉块上,使得总和为1。这意味着即使是功能词(如连词和介词)也必须使其与所有视觉标记的相似性分数总和为1。这个要求是不切实际的,因为它假设每个文本标记在指导注意力到视觉线索方面同等重要。所提出的局部注意力机制确保了 。因此,与视觉上下文更相关(并且具有更高相似性分数)的文本标记对视觉编码的影响更大。这种方法类似于在朗读时强调句子中的某些词,允许以更详细和细腻的方式提取与提示相关的视觉特征。总之,交叉注意力和提出的局部注意力之间存在两个区别。
- 注意力。 交叉注意力意味着每个词对应一个特定的区域,而局部注意力不强制这种对应关系。
- 输出。 交叉注意力产生 (提示中的词数)个视觉标记,而局部注意力生成 (视觉输入中的块数)个标记。
4 Experiments
Implementation Details
网络细节. 在本文中,作者采用了开源的LLaMA2(7B)模型[57]作为作者的大型语言模型(LLM)。作者使用来自CLIP[27]的文本编码器,以确保提取的文本特征在嵌入空间中与相应的视觉特征紧密对齐。使用EVA-CLIP[58]中的ViT-g/14作为视觉编码器。全局文本标记被注入到视觉编码器中,以进行提示感知的全局注意力。使用AdamW[59]作为优化器,其中,,权重衰减率为。学习率从线性升温至,在前步内加速模型收敛。然后学习率以余弦衰减至最小值。
训练设置为最多个周期,每个周期次迭代。
模型在单个NVIDIA RTX A6000 GPU上用3天时间以批量大小4进行训练。
训练细节与数据集. 遵循[57, 12],对话模板如下,
[linest] [Task Identifier][/INST] 其中 [INST] 和 [/INST] 分别代表用户角色和聊天助手。在训练期间,将<Image Feature>替换为视觉嵌入,将<Prompt Feature>替换为文本提示嵌入。根据具体情况替换_[Task Identifier](例如,[vqa]和[caption]_),使作者的模型更擅长理解多个任务。
作者用MiniGPT-V2[12]的预训练参数初始化作者的模型。MiniGPT-V2在多个任务上展示了出色的性能,经历了三个阶段的训练,训练数据集包括各种细粒度数据集。
作者在下游任务上以低成本微调模型,以验证作者方法的有效性。作者的模型在COCO-QA数据集[22]上进行训练,该数据集包括覆盖目标分类、颜色识别、计数和位置推理的问题-答案对。
训练的图像-文本对约占,其余的对用于零样本图像到文本生成任务。在整个训练过程中,文本编码器、全局提示感知视觉编码器以及LLM保持冻结状态。
只有局部提示感知视觉 Adapter 和额外的投影层被微调。评估主要在COCO-QA[22]测试数据集和MME[23]基准上进行。后者包括个感知任务(即存在、计数、位置、颜色、海报、名人、场景、地标、艺术品和OCR)和个认知任务(即常识推理、数值计算、文本翻译和代码推理)。
Evaluation
注意力可视化。为了证明所提出方法的有效性,作者在图4中可视化了全局和局部注意力。全局注意力图有效地针对与整个提示句子语义对齐的整个图像区域。与问题相关的局部注意力图突出了其在提取视觉线索时探索细粒度语义的能力。
定量结果。由于开放式响应的MLLMs[23; 3; 11]在统计上带来的挑战,作者在定量评估中仅考虑具有精确和简洁答案的问题。首先,作者将作者的模型与配备了未感知提示的 Adapter 的MLLMs进行比较,例如MiniGPT-4[41],mPLUG-Owl[39],BLIP-2[21],以及那些在视觉编码过程中考虑提示的MLLMs,如Multimodal-GPT[43],InstructBLIP[20]。
上述比较模型均为零样本评估结果。其次,作者将提出的提示感知 Adapter 与其他流行的 Adapter 进行比较。为了确保公平性,作者努力排除训练数据和参数数量对MLLM性能的影响。
因此,作者使用相同的数据集[22]以MiniGPT-4/v2[41; 12]作为统一基础结构训练MLLMs,只改变 Adapter ,包括线性投影,Q-Former家族,跨注意力,以及作者的提示感知 Adapter 。结果来自MME排行榜1表2显示了在COCO-QA[22]文本数据集上的定量结果。所提出的方法能够在视觉特征提取过程中选择性地关注问题中提到的目标,与跨注意力 Adapter 相比,数量感知有了显著的提升(约5.78%)。
在目标分类、颜色识别和位置推理任务中,作者的提示感知 Adapter 分别超过跨注意力 Adapter 5.73%、12.75%和6.95%。如表1和表3所示,与未感知提示的 Adapter 相比,作者的方法在MME[23]基准上的感知任务(1375.02_vs_1299.79)和认知任务(289.28_vs_210.31)上都表现出色。
定性结果。作者定性地将作者的模型与几种流行的MLLMs在具有更多样化的视觉输入和提示的感知和认知任务上进行比较。在所比较的方法中,LLaVA[11],MiniGPT-4[41],BLIP-2[21]采用了未感知提示的 Adapter 。而Flamingo[19]和InstructBLIP[20]则通过跨注意力内在地提取与提示相关的视觉信号。对于视觉结果,请参考图6~5和附录。得益于提示感知的全局和局部注意力,作者的模型在遵循提示以关注特定视觉线索方面显示了明显的改善。
5 Conclusions
在本文中,作者介绍了一种新颖的提示感知 Adapter ,旨在根据给定的提示自适应地嵌入视觉输入。
作者的方法旨在提取与提示最相关的最有信息的视觉线索,从而增强LLM的视觉理解能力。作者首先提出了一种全局注意力机制,它使用全局文本标记来进行粗粒度的视觉引导。
接着,作者引入了一种局部注意力机制,它利用局部文本特征以细粒度提取高度相关的视觉线索。由此产生的提示感知全局和局部视觉标记显著减轻了LLM在视觉感知上的负担。
参考
[1].Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models.