本文分享一篇 SIGIR 2021 最佳学生论文『Dynamic Modality Interaction Modeling for Image-Text Retrieval』,图像文本检索的动态模态交互建模。
详细信息如下:
- 论文链接:https://dl.acm.org/doi/abs/10.1145/3404835.3462829
- 项目链接:未开源
导言:
图像-文本检索是信息检索中的一个基本的分支。虽然目前在联系视觉和语言的方面已经取得了很大的进展,但由于模态内推理(intra-modal reasoning ) 和跨模态对齐(cross-modal alignment) 的难题,图像-文本检索仍然具有挑战性。现有的模态交互方法在公共数据集上取得了不错的结果。然而,这些方法严重依赖于手工设计的交互模式设计,因此缺乏灵活性。
为了解决这些问题,作者提出了一种基于路由机制的新型模态交互建模网络 ,实现统一的、动态的图像文本检索多模态交互框架。作者首先设计四种类型的单元作为基本单元来探索不同层次的模态交互,然后以密集的策略将它们连接起来,以构建一个路由空间。
为了赋予模型路径决策的能力,作者在每个单元中集成了一个动态路由器( dynamic router)来进行模态路径的动态探索 。由于路由器以输入为条件,因此模型可以动态地学习不同数据来激活不同的路径。作者在两个基准数据集,即Flickr30K和MS-COCO上进行了实验,本文的模型达到了SOTA的性能。
01
Motivation
图像文本检索是信息检索中的一个基本的问题,能够促进各种应用的落地,比如:跨模态检索、多媒体推荐。然而,由于需要模态内关系的精确推理和跨模态信息的精确对齐 ,图像文本检索仍然是一项具有挑战性的任务。
具体来说,如上图所示,模态内关系的精确推理需要识别和理解视觉或文本模态中的各种关系,如文本模态中“a red sled is next to him”的中间关系和视觉模态的虚线圈中的视觉关系。跨模态信息的精确对齐将来自不同模态的对象连接起来,以便在不同的语义级别上相互匹配,例如上图,标注相同颜色标注的视觉区域和文本概念,标注相同数字的高级关系应该很好地对齐。
根据所使用的交互模式,大致可以分为三类:
1)模态内相互作用。对于模态内推理的挑战,这种模式只是为不同模态独立进行交互建模,以探索特定模式内是的实体之间的关系,
2)跨模态交互。这类交互的研究集中在跨模态实体的对齐。比如对齐文本模态的“kid”和视觉模态的“kid”区域。
3)混合模态交互。为了进一步解决上述两个挑战,最近一些工作提出了结合模态内和模态间交互的方法。
但上述三类交互方式仍存在两个关键缺点:
- 它们的模态交互模式是手工设计的,这在很大程度上依赖于专家知识和经验反馈,这可能会使一些最佳的交互模式难以被发现。
- 现有的模型是静态的,即所有的样本都经过相同的固定计算流。这可能会导致即使是简单的图像-文本对也会被一些非常复杂的交互模式处理。
为了解决这些缺点,作者提出了一种新的动态模态建模网络(DIME),这是第一个动态模态交互的图像-文本检索框架。作者首先设计了四种类型的单元来完成不同的交互操作。具体来说,rectified identity cell 提供了相同的非线性转换能力,而 intra-modal reasoning cell 用来捕获上下文信息和模态内关系。
为了增强视觉-文本对齐,作者设计了具有不同粒度的 global-local guidance cell 和 cross-modal refinement 。然后,作者将这些单元在网络宽度和深度上叠加,以构建一个完整的路径空间,从而可以考虑各种未被探索的交互模式。同时,作者为每个单元配置了一个动态路由器 ,以生成与数据相关的路径。此外,为了使相似的图像/文本来学习相似的路径,作者引入了语义一致性正则化 。
02
方法
2.1 Feature Representation
2.1.1 Visual Representation
给定一个图像