超越imagebind, 北大&腾讯 提出LanguageBind, 打造多模态15边型战士!

2023-11-07 15:12:22 浏览数 (1)

点击下方卡片,关注「AIWalker」公众号

底层视觉干货,即可获取

作者 | ai4happiness 相关链接 | https://zhuanlan.zhihu.com/p/660567767

Paper:https://arxiv.org/pdf/2310.01852.pdf GitHub: https://github.com/PKU-YuanGroup/LanguageBind Huggingface: https://huggingface.co/Language

该工作介绍了一项名为"LanguageBind"的技术,旨在扩展视频-语言(VL)预训练模型的适用性,以处理多模态数据。该技术的核心思想在于以语言模态作为多种不同模态之间的纽带,因为语言模态包含丰富的语义信息。总结主要贡献:

  • 该工作提出了基于语言的多模态预训练框架LanguageBind,在预训练过程中通过对比学习将其他模态与语言模态对齐,并且这些模态在一个共享的嵌入空间内统一。
  • VIDAL-10M数据集包含1000万个具有对齐VL、IL、DL和AL的数据对,是第一个具有深度和红外模态的大规模视频多模态数据集。
  • 大量的实验验证了VIDAL-10M数据集和LanguageBind方法的有效性,在视频和其他模态理解任务中取得了显著的性能。

本文方案

LanguageBind,是一种多模态预训练方法,旨在对齐不同模态的语义,增强跨模态检索和零样本分类。如图所示,LanguageBind 包含三个部分:多模态编码器,语言编码器,以及多模态联合学习。

多模态编码器

对于视频编码器,我们采用了CLIP4Clip的训练框架,它是从ViT-B/32初始化的。对于语言以外的其他模态,我们使用了24层、1024维的视觉transformer,每个patch的大小为14。编码器是从OpenCLIP-large初始化的。深度和红外被视为RGB图像,它们在通道维度上被复制3次以与RGB图像对齐。与ImageBind类似,音频数据被转换成10秒(128 mel-bins)的频谱图,然后重复和填充频谱图。例如,一个4秒的频谱图将被重复两次,然后用零填充2秒。同样,在通道维度上也复制了3次。如果持续时间超过10秒,我们随机采样了三个10秒的音频片段,分别来自原始音频的前1/3、中间1/3和后1/3,并将它们堆叠在一起。

语言编码器和多模态联合学习

VIDAL-10M数据集

第一步是生成搜索词数据库,这个过程中,我们设计了一种独特的搜索词获取策略,利用来自各种视觉任务数据集的文本数据,包括标签和标题,以构建具有丰富视觉概念和多样性的视频数据集。

第二步是从互联网收集相关视频和音频,并进行一系列过滤处理,以确保数据集的质量和准确性。这个过程中,我们使用了多种过滤方法,包括基于文本的过滤、基于视觉的过滤,以确保数据集中的视频和音频与搜索词相关且质量高。

第三步是进行红外和深度模态生成,以及多视角文本生成和增强。这个过程中,我们使用了多种先进模型来生成其他模态的数据。从外, 我们还进行了多视角文本生成和增强。具体来说,我们使用了OFM模型生成关键帧标题,并将视频、标题和标签输入到mPLUG-owl模型中,以获得视频标题。然后,我们使用ChatGPT模型对视频标题进行细化和增强,从而提高文本的质量。最终,多视角文本增强包括标题、标签、关键帧标题、视频标题和增强标题等多个组成部分,提供了对视频内容的全面和详细的描述。

本文实验

ZERO-SHOT CLASSIFICATION IN MULTIPLE MODALITIES

我们进行了多模态零样本分类的实验,并与其他模型进行了比较。实验结果表明,我们的模型在红外和深度图像上表现出色,相比于ImageBind模型,我们的模型在LLVIP数据集上的性能提高了23.8%,在NYU-D数据集上的性能提高了11.1%。同时,我们的模型在FLIR V1和V2数据集上也优于OpenCLIP模型。这些实验结果表明,我们的模型在多模态零样本分类任务上表现出色,具有很高的性能和有效性。

ZERO-SHOT RETRIEVAL IN VIDEO-LANGUAGE

我们在两个经典数据集MSR-VTT 和MSVD 上进行了视频文本检索实验。我们的方法明显优于现有技术,如下表所示。对于文本到视频任务,我们在MSR-VTT上使用少于15%的参数,实现了比ImageBind高1.2%的R@1。此外,我们在MSR-VTT上分别以5.0%和5.8%的优势超过了CLIP4Clip,在MSVD上分别以4.2%和5.7%的优势超越了CLIP-straight。此外,我们在视频到文本检索任务中实现了最先进的性能,显著优于CLIP-straight。!!!值得关注的是,LanguageBind这篇工作在Audio领域的5个经典数据集上实现了预训练性能的大幅度提升,与Meta开源的爆款ImageBind相比,在Clotho数据集上R@1提升3.9%, 在Audiocaps数据集上R@1提升2.3%, 在AudioSet数据集上准确率提升9.4%, 在ESC-50数据集上提升22.9%, 在VGGSound数据集上提升0.1%。最新的Audio权重即将开源到Huggingface, 搞Audio的工作者们可以尝试测试一波,说不准可以蹭一波!!

IMPACT OF DIFFERENT TEXT SOURCES

我们进行了各种实验来探索不同的文本来源如何影响语言模态。我们验证了LanguageBind的有效性,该语言使用来自多个来源的文本在各种模式下进行训练。虽然一些文本源产生了良好的结果,但我们发现,单个文本源可能并不普遍适用于所有下游任务和数据集。在视频和深度模式方面,ChatGPT增强的字幕被证明是有利的。对于红外图像,OFA在LLVIP数据集中表现最好,而原始字幕在FLIR v1和v2中实现了最高的准确性。这就是为什么我们的VIDAL-10M提供多视图文本描述,允许灵活选择适合不同任务需求的适当文本源。

SCALING THE SIZE OF DATASET

我们分析了不同数据量对MSR-VTT的影响,并报告了零样本检索的R@1得分,如下图所示。我们的研究结果表明,数据量的增加会显著提高识别性能。具体而言,3M ChatGPT增强文本的性能分别超过500k和100k数据0.9%和1.6%。此外,在视频到文本检索和文本到视频检索中观察到的趋势一致表明,模式之间的互动在增强学习过程中发挥着关键作用。因此,随着数据大小的扩大,VIDAL-10M数据集中的文本描述与视频内容更加一致,并表现出更强的可扩展性。

Training loss and architecture

  • Training epochs. 我们在表4 中进行了一项实验,研究了训练时期对模型的影响,结果表明 LoRA 微调非常有效。尽管经过 3 个时期的训练能够产生更高的准确性,但我们选择优化为单个时期,以在性能和训练成本之间取得平衡。
  • Training batch size. 在表4 中,我们评估了批次大小对表示学习的影响。实验表明,较大的批次大小并不一定更好。事实上,批次大小为 1,024 是最优的选择。
  • Rank of LoRA. 在我们的研究中,我们考察了 LoRA 的常见秩配置,详见表~
ref{tab:LoRA}

。我们观察到较小的秩值会导致更显著的性能改善,而较大的秩则可能会降低性能。这种趋势可能是由于模型的过拟合造成的。

  • Temperature for loss. 我们在表4 中详细研究了不同温度值对模型的影响。我们发现,从 0.07 开始的可学习温度表现最佳,优于 ImageBind 提出的固定温度策略。
  • Masked ratio. 在表4 中,我们探讨了不同的掩码比例对模型的影响。结果表明,掩码比例为 0.5 的性能最高,仅需要四分之一的计算资源,与 FLIP 的研究结果一致。

总结

在这项工作中,我们提出了LanguageBind,一种用于多模态预训练的基于语言的语义对齐方法。我们使用对比学习来建立语言模态和所有其他模态之间的模态语义对齐。为了提高模态完整性,我们还构建了第一个直接与语言模态对齐的大规模多模态数据集VIDAL-10M,包括1000万个对齐的VL、IL、DL和AL对。零样本VL、IL、DL和AL理解任务的实验结果证明了LanguageBind的能力和VIDAL-10M的有效性。

0 人点赞