基于Large Language Model(LLM)的视觉语言模型(VLMs)在各种视觉语言理解任务上展示出了惊人的性能。然而,这些VLMs在理解图像细节方面的能力,即超越语义层次的图像细节,仍然不明确。在作者的研究中,作者引入了一个像素值预测任务(PVP)来探索“视觉语言模型能看到图像的哪些细节?”并帮助VLMs感知更多信息。 通常,这些模型包括一个冻结的CLIP视觉编码器,一个大型语言模型,以及一个连接模块。在将VLMs fine-tuned 到PVP任务后,作者发现: 1)仅通过连接模块和LLM fine-tuning的现有VLMs难以精确预测像素值; 2)当视觉编码器也进行适配时,预测精度会显著提高。 此外,作者的研究还揭示,将像素值预测作为VLM预训练任务之一,并将视觉编码器适配作为VLM在需要细粒度图像感知下游图像语言理解任务上的性能,例如参考图像分割(平均CIoU改进 10.19)和视频游戏决策(在两个游戏中分别实现平均分数提高 80.34和 70.54)可以显著提高VLM的性能。
1 Introduction
大型语言模型(LLMs)彻底改变了人工智能领域,使得机器能够以惊人的表现感知和生成人类般的文本。随着这一进步,基于LLM的视觉语言模型(VLMs)正在迅速发展,并在视觉和语言的跨领域内。最近的一些VLMs,如,在多个视觉语言任务上表现出色,包括视觉问答(VQA)和指代表达理解(REC)。通常,这些基于LLM的VLMs采用类似的建模设计:一个预训练的视觉编码器来提取视觉特征,一个映射模块将这些特征与语言空间对齐,以及一个LLM进行推理。
这些VLMs主要使用基于CLIP(对比语言-图像预训练)的视觉编码器(例如,CLIP [41],OpenCLIP [10],EVA-CLIP [13] 等),图像特征是LLMs进行解释的优势,因为这些特征通过在大规模图像文本配对数据集上进行训练与语言空间对齐。然而,由于CLIP图像特征与简短而简略的语言描述相吻合,它仍然不确定这些LLM是否能真正“看到”原始图像内容。
图1:方法。 a) 显示作者的发现:使用原始CLIP视觉特征,VLMs 只能重构一个模糊的轮廓,没有很多视觉细节。通过调整视觉编码器可以改进重构结果。(b)中的重构图像由(b)中像素值与像素位置 Query 生成。为了更好地说明,ViT与LLM之间的连接模块被忽略。b) 表明作者将像素预测作为VLM的预训练任务。c) 说明了VLM执行的一些下游任务,这些任务需要同时理解视觉细节和语言信息。作者的预训练可以提高这些任务上VLM的表现。
为了研究这个问题,作者提出了一种方法,通过检查现有的视觉语言模型(VLMs)从原始CLIP视觉特征中感知视觉细节的能力,来展示它们如何预测感知图像的像素值。受到图像生成中的隐式神经表示(INR)[3, 48, 49, 50, 17]的启发,作者在视觉问答形式中设计了一个像素值预测(PVP)任务,可以直接集成到现有的VLM Pipeline 中。给定图像CLIP特征和一个(x, y)坐标,作者提示大型语言模型(LLM)在该坐标上的RGB像素值。问题格式如图1b所示。作者首先使用普通协议微调VLM,同时训练连接模块和LLM,同时在冻结视觉编码器的过程中。如图1a所示,为了更好的可视化,作者在批处理推理中 Query 所有像素位置,以重构图像。而在训练期间,作者只从一个取自训练集中的随机图像的任意位置中随机采样一个位置。作者发现,冻结CLIP编码器的VLMs只能重构一个模糊的轮廓,而缺少许多视觉细节。此外,如果作者同时适应CLIP编码器以进行PVP任务,作者会发现像素预测结果有显著改善。图3中可以查看更多的可视化结果。像素重建[14; 18; 21]是一种经典且有效的视觉预训练任务,可用于需要了解视觉细节的下游任务,如分割或深度估计[4; 18; 24]。受到作者的发现以及像素重建任务从细节视觉任务中成功迁移的先例的启发,作者将像素值预测设为视觉语言模型(VLMs)的预训练任务,如图1b所示,并期望增强的感知能力能为需要详细视觉和语言理解的下游任务提供帮助。由于作者预训练模型的特殊属性,作者将它称为像素自编码的多模态模型(PAE-LaMM)。
为了验证改进的像素预测能力是否确实有助于在VLMs中更好地理解视觉细节,作者选择了两个需要视觉细节的下游视觉语言任务进行比较:即参考图像分割任务[23; 38]和视频游戏玩 tasks,如图1c所示。在分割任务中,VLMs需要准确感知图像中引用的一个特定词语的物体的形状并生成其分割 Mask 。对于像赛车和太空侵略者这样的视频游戏玩任务,VLMs需要正确解释道路或敌人子弹等视觉元素,根据堆叠的帧和游戏描述生成相应的动作。作者收集了超过53K观察-动作对的数据集,这些对由专家强化学习模型玩的游戏。
在实验部分,作者首先阐述了微调VLM与冻 vision 编码器ViT的适应之间的性能差距在PVP任务中的。然后,作者说明了作者如何通过增强对视觉细节的感知来通过作者预训练任务和视觉编码器适应策略为下游任务比如参考图像分割和视频游戏提供优势。最后,作者展示了作者的方法在主流视觉问答(VQA)任务上的性能,证明作者的预训练模型达到了与最先进的策略相当的结果,同时提供了在像素重建方面的额外能力。
作者的贡献可以总结如下:
- 作者提出了一个像素值预测(PVP)任务,以检查当前基于LLM的视觉语言模型的感知视觉细节的能力。这个任务被设计为视觉问答类型,并且可以轻易地集成到现有的VLM Pipeline 中,而不需要额外的设计。
- 通过在PVP任务上调优VLMs,作者的研究表明这些模型在准确分辨像素级细节方面存在挑战。性能在适应其通常冻 vision 编码器时显著提高,揭示了冻结 CLIP vision 编码器限制了这些VLMs在感知视觉细节方面的能力。
- 作者将PVP集成到现有的VLM预训练流程中并在训练期间适应视觉编码器。结果表明作者的预训练可以帮助VLMs在要求感知视觉细节的下游视觉语言任务上表现更好,例如图像分割和视频游戏决策。
2 Related Work
基于LLM的视觉语言模型。最近,基于大型语言模型(LLM)的视觉语言模型(LLM-VL模型)在需要视觉理解和语言理解的任务中取得了显著的成果。LLM-VL模型的有效性主要源于其在大规模数据集上训练得出的推理和泛化能力。近期,一些研究探讨了LLM在大像素重建任务中的能力和引用式图像分割[27, 44]。然而,这些作品主要关注不同语义视觉信息 Level 的对齐。这些视觉语言模型如何解释原始图像以及它们是否能够看到在语义信息之外的原有图像细节则鲜为人知。为了填补这一空白,作者提出了一种方法,用于调查原始视觉细节感知能力,并设计了一种自监督预训练方法,以提高它们原始图像的感知能力。
像素重构作为预训练。 像素重构已被探索作为一种有效的计算机视觉模型预训练方法。通过像素重构预训练视觉模型帮助了需要像素级理解的特定视觉任务,如语义分割[18],无类别分割[24]和深度估计[4]。然而,当前的LLM-based VLM模型主要利用通过视觉语言对比学习预训练的视觉编码器,因为这些特征可被大型语言模型(LLM)理解[36]。因此,将预训练分别用于重构任务的视觉编码器简单地插入到VLM中预训练的效果较小。此外,尚不清楚如何将重建任务整合到VLM的训练中,以及它是否会增强整个VLM对视觉细节的理解。考虑到视觉语言任务的一般范式,作者设计像素重构作为VQA任务,并在这种任务上更新整个VLM以提高视觉细节理解,而不是仅关注视觉模型。
引用图像分割。引用图像分割任务旨在根据一句描述对特定物体进行分割。该任务需要像素级的视觉细节和语言理解。VisionLLM [55]将分割 Mask 视为多边形序列预测,需要扩展词汇用于LLM解码器以及额外的视觉解码器进行图像标记器的训练。Lisa [27]将LLM与强大的分割专家SAM [24]相结合以进行复杂的指令推理分割。在作者方法中,作者除了CLIP编码器之外不涉及任何额外的视觉组件,引用分割结果可以直接预测自LLM。作者证明,如果LLM能更好地看到图像细节,VLM可以提供一个精确的像素级 Mask 。
大型语言模型在视频游戏中的运用。 在AI研究领域,游戏起着关键的作用,要求AI模型具备多种能力,如高级规划和推理[58]。最近,由于其出色的推理能力,LLM被研究其在许多游戏应用中的可能作为玩家代理[1, 53, 54, 56]。同样,人类可以通过观看视频并理解游戏说明来玩视频游戏。一项最近的工作[56]利用人类编写的指令和LLM来加速强化学习(RL)算法在Atari游戏中的应用。特别是,有些视频游戏需要详细的图像分析,例如Carracing [25]和Atari游戏Space Invaders。例如,当汽车接近驾驶道路的拐角时,模型可能需要控制转向。因此,作者使用VLM来玩视频游戏,并展示出如果改进了视觉感知能力,VLM可以获得更高的分数。
3 Method
作者首先介绍了研究当前视觉语言模型(VLMs)的图像感知能力的方法。接着,作者提出了作者的预训练任务设计,这是针对大型语言模型(LLM)的基于VLMs的像素重建。最后,作者概述了作者的下游任务设计,其中包括参考图像分割和电子游戏玩。
Method for investigating image perception ability of VLMs.
作者首先通过让视觉语言模型(VLMs)参与像素重置任务来考察它们理解图像细节的能力。这种任务要求模型在像素 Level 感知图像。为了适应这种任务,作者将像素重置视为视觉问答(VQA)任务。作者鼓励VLM在图像上特定位置(x,y)提供一个像素值,如图1中部分b所示。
Pixel Reconstruction Pre-training for VLMs
作者将PVP(Player-Versus-Player)引入视觉语言模型(VLM)的预训练流程中。作者的方法旨在在不损失通用视觉语言知识的情况下,增强现有VLM理解详细视觉信息的能力。作者引入像素重构作为视觉问答(VQA)的新任务,并将包括视觉语言任务在内的其他任务,纳入作者的模型训练中。对于附加任务,作者遵循MiniGPTv2[8]的完整训练设置,并使用与[8]中相同的数据集。作者创建了一种三阶段训练方法来使作者模型更好地与视觉细节对齐。
第一阶段旨在让VLMs熟悉新的像素重构任务。遵循[8]中使用的先前的训练设置,作者在这一阶段只训练Large Language Model(LLM)和连接模块,因为作者将直接解冻视觉编码器会导致灾难性遗忘(补充材料中提供了实验结果)。在第二阶段,除了LLM和连接模块外,作者还适应视觉编码器来提高VLM理解视觉细节的能力。在最后阶段,作者冻结视觉编码器,将像素重构任务的采样比例减半,以实现视觉语言空间中低级细节与高级语义之间的平衡。作者使用LoRA有效地训练LLM。通过三个阶段的预训练,作者在诸如参考图像分割和视频游戏玩家的下游任务上评估作者的方法。补充材料中提供了预训练设置的必要细节。
作者的视觉语言模型的预训练流程融入了像素重构这一新颖的任务,通过这种方法,模型在保持整体视觉语言知识的同时,提高了理解视觉细节的能力。作者采用了多阶段的训练方法,以帮助模型更好地针对视觉细节进行对齐。在预训练的最后阶段,作者保持视觉编码器不变,使像素重构任务与高级语义保持平衡。作者运用LoRA高效地训练Large Language Model。以上详细信息均来源于补充材料。
Referring Image Segmentation
类似像素重建的范式,作者将"指向图像分割"视为一个视觉问答(VQA)任务。作者让VLM为这个问题提供答案:“这个像素位置(x,y)是否包含在指向的句子中所描述的特定物体中?”作者使用任务标识符[分割],并根据问题进行:
<>
(
分割
mask: }_
指向的句子
答案为0或1,0和1分别表示在位置(x,y)上的二进制 Mask 中的这个物体。作者没有使用额外的解码器或专门的分割的词表。分割的预测 Mask 是由VLM中的大型语言模型直接通过检查视觉特征和语言指导来生成的。指向图像分割的表现可以直接反映VLM在像素级视觉理解能力。
Video Games Playing
作者选择了两个来自OpenAI Gym环境的视频游戏:Carracing Game和SpaceInvaders。作者把玩视频游戏看作是视频问题回答任务,每个短视频包含N张堆叠的图像。给定一个观察(一个短视频),模型需要根据每个游戏的动作空间预测动作。作者首先为基于LLM的VLM设计了一个通用的模板:
..._
游戏指令游戏识别从动作空间中选择一个动作$ImageNFeature$$是第N个图像的视觉特征。游戏指令是在玩这个游戏时必要的信息,它包含玩家的目标,游戏提示和游戏动作空间。图2展示了使用LLM的VLM进行游戏玩的实例。作者根据游戏分数从stable-baselines3 [43]提供的每个游戏中选择了一个预训练的强化学习(RL)模型。作者收集了包含观察和行动的专家模型采取的动作的数据集。在测试时,作者将游戏种子与训练环境设置为不同。作者把VLM在游戏玩上的微调过程看作是模仿学习,只使用其他VQA任务中相同的损失。输出直接由VLM生成,没有解释或额外的解码器。
图2:VLM进行游戏玩的示例。输入到VLM是堆叠的图像和游戏指令。第一行是Carracing的示例。第二行是SpaceInvaders的示例。堆叠帧的数量取决于作者使用的专家模型。例如,Carracing使用两个帧,而SpaceInvaders使用四个。
Carracing Game. 选择Carracing-v0,因为它是一个广泛使用的版本。选择来自stable-baselines3 [43]的RecurrentPPO作为专家模型。该模型使用两个堆叠帧作为单个观察输入,并选择一个动作,这是一个包含三个连续值()的动作,分别表示(转向,油门,刹车)。作者首先将这些三个值映射为离散值,详情请参见补充材料。作者收集的数据集包括30个游戏(具有不同的游戏种子),总共28585个观察(堆叠图像)和相应的动作。
SpaceInvaders. 作者使用 SpaceInvadersV4版本,并选择一个预训练的 DQN 模型玩这个游戏。该模型使用四个堆叠帧作为单个观察输入,并从以下动作空间中选择一个动作:
作者直接记录每个观察和专家模型采取的动作。作者收集了30个游戏,包含24618个观察和相应的动作。
4 Experiments
本文的实验部分首先展示了基准VLM和作者所提出的方法的重建结果。然后,作者在两个类型的下游任务上报告了作者的结果,以展示VLM从像素重建预训练中可以获得多大的利益。第一个是针对图像分割,第二个是视频游戏玩。作者展示了定量和定性结果。在最后的部分,作者展示了作者的预训练模型在其他视觉语言任务上也可以实现类似的结果,并具有额外的像素重建能力。预训练策略的消融研究如下。
- 训练数据集如下:[1]表格1:用于作者的预训练的训练数据集。
- 实现细节:[2]作者使用MiniGPT-v2 [8]作为作者的VLM基础,并利用他们的预训练权重来初始化作者的模型。为了研究如何调整视觉编码器对VLM在像素预测任务上的影响,作者首先获取了一个采用作者方法中引入的第一阶段预训练的VLM的训练模型。然后,作者使用两种策略继续训练该模型:将ViT冻结并适应视觉编码器。作者比较了在第一阶段之后第二阶段两种模型的定性图像重建性能,以衡量像素预测的质量。预训练的详细信息采用了三阶段训练策略。参考[8]中的类似设置,作者使用LoRA [20]来加速训练。预训练阶段包括通过低秩适应训练大语言模型和连接模块,其中LoRA秩设置为64。视觉编码器只可适应第二阶段,无需使用LoRA。输入图像分辨率是448×448。重建目标是在64×64分辨率上的下采样图像。预训练阶段使用的完整数据集。整个预训练阶段约有3.6M像素重建问题,通过随机从COCO标注数据集 [29]中的图像中提取位置来随机生成。对于下游任务,作者直接在 Baseline 模型和经过三阶段预训练后得到PAE-LaMM模型上进行微调,并报告它们的表现。在引导分割任务上,作者基于Referring Expressions Comprehension (REC)和引导分割数据分别微调两种模型。因此,作者的微调模型获得了定位和像素级理解能力。对于视频游戏玩,作者使用了来自OpenAI Gym库 [7]的官方游戏环境,并使用RL-Zoo3 [42]用于数据收集和游戏界面推理。
在第一部分,作者展示了基准VNL和作者的方法的重建结果。然后,作者在两种类型的下游任务上报告了作者的结果,以说明VNL从像素重建预训练可以得到多少利益。第一个是关于图像分割,第二个是关于玩视频游戏。作者展示了定量和定性结果。在最后的部分,作者展示了作者的预训练模型在其他视觉语言任务上也可以实现类似的结果,并具有额外的像素重建能力。预训练策略的消融研究如上所述。
训练和超参数 作者使用余弦学习率 and AdamW 优化器来训练作者的模型。所有模型都针对4xA100 GPU进行训练。像素重建任务的批处理大小分别为64、16和64个阶段。对于参考图像分割,作者设置分割任务的批处理大小为64,定位任务的批处理大小为24。对于CarRacing和Space Invaders,作者分别设置批处理大小为8和3。补充材料将提供更详细的超参数信息。
在像素重建上的评估
图3显示了使用作者的方法和基准模型在像素重建上的定性比较结果。基准模型只能将模糊的轮廓重构为没有太多视觉细节的图像,表明 VLM 无法从原始 CLIP 视觉特征中获得足够的原始图像细节。相比之下,作者的方法有助于 VLM 重构出更好的结果,具有更多的细节。此外,作者使用平均重建误差 (RE) 来报告像素重建的定量结果,如下公式所示:
本文主要研究了将视觉注意力机制添加到视觉语言模型中的效果。文中提出了将视觉注意机制应用于视觉语言模型的两种方法,并对其在各种视觉问答任务中的性能进行了比较。
首先,本文提出了两种将视觉注意力机制应用到视觉语言模型中的方法:基于全局注意力(Global Attention)和基于局部注意力(Local Attention)。这两种方法主要是利用注意力机制来对图像中的各个局部区域进行处理,从而提高视觉语言模型的性能。
作者在两个评价指标上对比了这两种方法:平均重构误差(Average Reconstruction Error,简称 AREE)和每题平均重构误差(Average Error per Query,简称 AEQ)。结果表明,在平均重构误差方面,基于局部注意力的方法明显优于基于全局注意力的方法;而在每题平均重构误差方面,两种方法的表现相当。
同时,作者还在 Concept Captions 中的测试集上对比了这两种方法。实验结果显示,这两种方法的 AREE 和 AEQ 都优于原有视觉问答模型,并且表现出更快的处理速度。
本文还考察了视觉语言模型在不同任务上的表现。实验结果表明,无论是进行全局视觉推理,还是进行局部视觉推理,加入视觉注意机制的方法都能显著提高性能。尤其是在需要理解表达式具体含义的Refer Expressions Comprehension任务中,这种方法的表现提升更加明显,说明视觉注意机制可以帮助视觉语言模型更好地理解 visual细节。
总之,本文通过实验表明,将视觉注意力机制添加到视觉语言模型中可以提高模型的性能,从而有助于更好地解决视觉问答任务。
Results on Downstream tasks
经过预训练后,作者在需要视觉细节和对语言理解的任务上验证了作者的方法的有效性。
参照图像分割 对于参照图像分割,作者报告了作者在一部分RefCOCO [23], RefCOCO [60],和 RefCOCOg [34]上的结果。共有8个数据集:RefCOCO [23], RefCOCO [60],和 RefCOCOg [34]。因此,共有3组数据。
例如,作者报告了在Carracing游戏上的平均奖励。奖励来自RL-Zoo3库 [42]。在这里,作者简要介绍如何计算分数;详情可在OpenAI Gym [7]中找到。对于CarRacing,每帧为-0.1,访问每个轨道砖时为 1000/N。对于Space Invaders,玩家可以通过摧毁太空侵略者获得分数 [7]。对于这两个游戏,分数越高表示表现越好。表4显示,在作者的方法与 Baseline 模型的比较中,CarRacing游戏的平均奖励为70.54评分差距,而Space Invaders游戏的平均奖励为80.34分以上。此外,作者在图5中展示了Carracing游戏的定性结果,通过演示控制汽车和接近相同角落时的每个模型行为来证明作者的方法在增强视觉细节理解方面的优势。专家模型左转向和刹车,作者的方法也预测了在接近赛道上的尖锐曲线时正确的操作。然而, Baseline 模型无法执行正确的操作。定量和定性结果都支持作者的方法在增强视觉细节理解方面的优势。
参考
[1].How Well Can Vision Language Models See.