ICCV2021 Oral-新任务！新数据集！康奈尔大学提出了类似VG但又不是VG的PVG任务

关注公众号，发现CV技术之美

本文分享收录于 ICCV2021 Oral 的一篇论文『Who’s Waldo? Linking People Across Text and Images』，在本文中，康奈尔大学学者提出了类似 VG 但又不是 VG 的 PVG 任务。

详细信息如下：

论文链接：https://arxiv.org/abs/2108.07253
项目链接：https://whoswaldo.github.io/（尚未开源）

导言：

在本文中，作者提出了一个新的任务和基准数据集，Person-centric Visual Grounding（PVG） ，该任务的内容是建立caption中出现的人和图像中出现的人之间的对应关系 。

与之前的基于对象的Visual Grounding不同，本文的新任务mask了caption中人的名字，来鼓励模型关注上下文线索，如多个人之间丰富的交互，而不是学习名字和外观之间的联系。

在本文，作者提出了一个用于训练该任务的新数据集，Who’s Waldo 。作者还提出了一个Transformer-based的方法用于解决该问题，且性能明显优于其他baseline方法。

Motivation

在图像中观察到的人与他们在文本中被提及之间的对应关系，不仅仅在于他们的身份和他们的外表的了解。如上面的这张图片，我们经常在报纸上看到这样的图片-标题对，即使我们对标题中提到的特定人不熟悉，也能根据整句话的上下文来对应标题中的人和图片中的人的对应关系，这种能力需要复杂的视觉推理能力。对于上图的这个例子，我们必须理解一个底层活动（“passing”），并确定谁在传递球，谁在被传球，以及图像中哪些人在文本中根本没有被提及。

在本文中，作者提出了一个以人为中心的视觉语言Grounding（PVG）任务和基准数据集。文本描述和图像区域之间连接的一般问题被称为Visual Grounding。本文提出的PVG任务和其他多模态任务有一点不同：首先，本文的任务对身份信息（人名）进行了抽象；其次，本文使用来自真实数据源的数据，而不是使用人工标注的caption。

传统的Visual Grounding能够根据Object的表达来进行物体的定位，但是如果在PVG任务中也采用这种方式就会产生一定的问题：根据人名来定位会产生一定的偏置（比如性别等）。因此，在这个任务中，作者mask了人的名字，这使得模型可以强调关注人物在图像和文本中的上下文，这也需要模型来理解复杂的交互行为和预期行为（比如：上图中，期望行为是球能够传递给同一队的队员）。

为了解决这个任务，作者提出了一个新的数据集Who’s Waldo ：包含了30万张图片-文本对，并自动标注与提到的人名和他们相应的视觉区域之间的对齐关系。Who’s Waldo是由Wikimedia Commons中免费许可的图片和描述构建的。作者利用这个数据源来自动提取超过20万个的图像-文本对应关系。

为了连接文本和图像之间的人，作者提出了一个基于Transformer的模型。作者在句子中的人和人的图像区域之间的联合embedding空间中，使用相似性度量来估计这些连接。基于Transformer的模型表示也特别适合处理带mask的任务，通过将推理转移到周围的上下文线索，如表示动作的动词和用于描述对象的形容词。

任务

Person-centric Visual Grounding

给定一个有m≥1个人检测的图像I和指向n≥1人（每个人提到一次或多次）的标题，我们希望找到一个从句子中人名到对应视觉检测区域的映射。

此外，我们希望产生的映射应该是部分的或者一对一的。因为不是所有出现在图片的人都会在句子中被描述，也不存在句子中两个描述的人被映射到图片中的同一区域的情况。除此之外，句子中描述的人可能在图片中并没有出现，因此这里图片和句子中的任务对应关系还是比较复杂的。

在收集到的数据中，每个人通常会有一个指定的名字，然而，使用人的实际名字来进行Visual Grounding的推理涉及到两个挑战：名字的多样性产生了显著的数据稀疏性；而人名的文本本身会引起了强烈的数据bias（比如性别）。因此，作者通过用占位符[NAME] token替换每个人名来进行抽象。这鼓励模型关注人名的文本上下文，包括暗示这个人的视觉外观的形容词和副词，以及表示他们所参与的动作的动词。

换句话说，通过mask名字，作者训练的模型并不记住特定名字的人是什么样子，或者根据特定的名字形成刻板的联想，而是必须学习更丰富的上下文线索。作为数据集的一部分，作者提供了一个从人的名字到对应 [NAME] token的映射。

除此之外，本文的数据都是在网络上获得，所以相比于传统的Visual Grounding数据，本文的数据更接近真实分布。

数据集

The Who’s Waldo Dataset

Who’s Waldo包含了从Wikimedia Commons获得的270K的图片标题对。数据的样例如上图所示。

Data Collection

作者选用了Wikimedia Commons中的“People by name”板块中的图片文本对。很多Wikimedia Commons上的图片也与Caption中人名相关：通过命名在场的人，详细描述他们之间的互动。作者收集了这些caption，并通过与正则表达式的模式匹配对它们进行预处理，以删除Wikimedia的文本结构。作者还删除了“Wikimedia-specific by [photographer name]”这类单词，因为摄影师通常在caption中命名，但没有在图片中显示。

Detecting People in Images and Captions

为了检测图像中人的边界框，作者使用了Switchable Atrous Convolution、Cascade R-CNN和ResNet-50 Backbone。然后，作者还使用了top-down DarkPose估计了人体的133个关键点。

然后作者使用FLAIR进行caption中的人名识别，通过可视化，作者发现同一个名字可能在文中被提到多次。因此，作者使用 neural coreference resolution模型，将多个人名实体聚类为一个人名。

Estimating Ground Truth Links

为了对任务进行监督，作者自动生成了从caption中的人到检测图像中的人的ground-truth连接。Wikimedia Commons提供了文字中的人名和图片中人脸的对应。然后作者可以根据关键点和检测模型生成对应的检测框，作者将置信度大于0.46的检测框作为文本中对应人的检测框。

Dataset Size and Splits

上述过程产生了271,747对图像标题对。上图总结了Who's Waldo数据集中annotations和identities的分布。作者将179k的数据作为训练集，6.7k的数据作为验证集，6.7k的数据作为测试集。

Validating Test Images with AMT

虽然本文的方法近似于ground-truth映射，但作者希望用只包含正确的ground-truth连接的子集进行评估。为了达到这一目的，作者使用了Amazon Mechanical Turk（AMT）来删除注释不正确的测试集示例。通过人工检查样例，作者发现标注准确率达到98.5%。

方法

作者使用multi-layer Transformer来学习联合图像-文本表示，这样caption中的人及其对应的图像区域的特征表示将会高度相似，而不对应的图像区域将会非常不同。

4.1. Model

本文的方法基于UNITER Transformer，这个预训练模型能够适用于各种下游视觉语言模型。作者将UNITER模型进行了修改，以适应本文的任务，模型结构如上图所示。

首先使用Faster-RCNN来获取人检测框。视觉特征与其空间坐标的编码concat，产生空间视觉特征。然后将进行文本转换成token，并且把人名转换成[name] token，然后加入position encoding成为。

作者将这些视觉-文本特征喂入到Transformer模型，该模型使用 self-attention层来学习上下文表示，并在 upper-hidden层中捕获更特定于上下文的表示。隐藏层的视觉和本文特征分别为和

从这些上下文的表示中，作者构造了一个box-name相似性矩阵S。这个矩阵测量了第i个name和第j个box之间的余弦相似性，：

在推理过程中，选择相似度矩阵S中分数最高的框作为ground的结果。

4.2. Learning

为了训练模型，作者提出了两个针对相似矩阵S的损失项：（1）图像内和图像间的box–name匹配损失；（2）未连接box分类损失。

Box–Name Matching Losses

作者定义了图像内和跨图像box–name匹配损失。首先计算了不同的box上的估计概率(p)，以及不同的名字的估计概率(q)。尽量减少了一个Batch中所有Ground-truth连接的交叉熵损失：

Unlinked Box Classification Loss

由于并不是所有在图像中描述的人都在其caption中提到，所以作者用一个常量的空名来增加名字。然后作者使用了一个binary cross-entropy分类损失计算box的相似度。作者将这些相似度用Sigmoid函数归一化，作为负样本进行匹配。

如上图中红色框所示，这些不清楚或者不重要的人作为空名的不匹配box。

实验

5.1. Comparison to Prior Work

上表展示了VG上不同的SOTA模型以及本文模型在本任务上的效果。

5.2. Ablation study

上表展示了不同特征和损失函数的消融实验。

5.3. Analysis of results

上图展示了本文方法的一些定性结果。

总结

在本文中，作者提出了一个任务，数据集和方法来连接人的图像和文本。通过mask人的名字，迫使模型不记住特定个体的外观，而是去理解上下文线索和多个人之间的互动。本文的方法在这项任务上取得非常不错的性能，此外作者也证明了目前的ground方法在本文提出的数据集上性能下降都比较明显，说明只根据上下文对于传统方法来说很难进行准确的定位。

作者介绍

研究领域：FightingCV公众号运营者，研究方向为多模态内容理解，专注于解决视觉模态和语言模态相结合的任务，促进Vision-Language模型的实地应用。

知乎/公众号：FightingCV

mask token

0 人点赞