一种应用于视觉对话的视觉-文本自适应推理的知识桥图网络

2020-08-28 15:27:52 浏览数 (1)

作者 | 蒋萧泽、杜思逸

编辑 | 陈彩娴

近年来,随着自然语言处理和计算机视觉研究的发展,集成视觉和语言来构建一个综合的人工智能系统得到了广泛的关注,其中包括视觉对话(Visual Dialogue)、图像描述生成(Image Captioning)以及视觉问答(VQA)任务等。

与视觉问答任务不同,视觉对话是针对图像的持续会话,同时视觉目标与语义关联随着会话情景动态调整。这就要求视觉对话系统能够从视觉知识(图像)和文本知识(对话历史)中自适应地检索出有价值的信息来回答当前问题。在视觉和文本两种模态信息之间天然地存在着跨模态的视觉-语义鸿沟,如何刻画这样的语义鸿沟是一项具有挑战性的工作。

本文介绍的是ACM MM 2020论文《KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue》。该论文提出在细粒度上刻画跨模态语义鸿沟的模型 KBGN,希望在视觉与文本之间搭建有效桥梁。论文经北航秦曾昌老师指导,由来自北京航空航天大学、中科院信工所的作者蒋萧泽、杜思逸、秦曾昌、孙雅静、于静等人共同合作完成。

论文链接:https://arxiv.org/abs/2008.04858

实验室主页:http://dsd.future-lab.cn/index.html

1

核心思想

在视觉对话领域,传统方法往往采用注意力机制,将一个模态的信息编码成全局表达后作用于另一个模态。这样的方法缺少对不同模态信息细粒度地建模,因而较难捕捉两个模态间单个实体的语义关系。

图神经网络(GNN)在处理结构化数据方面展现出较强的优势,因此,作者基于图结构,提出了一种在细粒度上刻画跨模态语义鸿沟的模型 KBGN(如图1所示)。模型的构建突出表现了以下三个方面的优势:

(1) 模型对视觉-文本之间潜在的语义关联进行细粒度地建模;

(2) 模型采用了灵活的信息检索模式;

(3) 模型整体设计采用模块化的流程设计,主要由三个模块组成:知识编码(Knowledge Encoding),知识存储(Knowledge Storage)和知识检索(Knowledge Retrieval)。

图1:KBGN示意图,其中蓝线代表文本对图像的依赖关系、绿线代表图像对文本的依赖关系

2

模型设计

视觉对话任务:根据给定的图像I,图像描述C和t-1轮的对话历史Ht={C,(Q1,A1),…,(Qt-1,At-1)},以及当前轮问题Qt,返回针对当轮问题Qt的最佳答案。

模型整体结构如图2所示,主要包含三个模块:知识编码模块(黄框部分),知识存储模块(橙框部分)和知识检索模块(右侧红色部分)。接下来本文将简要介绍模型各模块的设计细节。

图2:KBGN模型整体框架

1、知识编码

图3:视觉图神经网络更新流程图

知识编码模块(图2黄框部分)对视觉和文本信息进行编码。由于视觉信息(图像)和文本信息(对话历史)均具有结构化的特性[1][2][3],同时为了便于后续对跨模态图神经网络进行构建,模型在知识编码模块同样采用图结构对视觉和文本的信息进行编码。

对于视觉知识图,模型采用Faster R-CNN提取的视觉区域特征作为图的节点,图的边采用预训练好的边提取器来进行初始化;对于文本知识图,模型采用每一轮QA作为图的节点,图的边由两端节点的拼接操作来进行初始化。

下面以视觉知识图的更新为例来介绍模态内图的更新过程。如图3所示,模型首先以当前查询嵌入Qt(由单向LSTM编码)为引导,对关系信息进行更新:

随后基于查询嵌入Qt、邻居节点信息以及更新后的关系信息,对每个节点进行更新:

2、知识存储

知识存储模块(图2橙框部分)以跨模态图神经网络为基础,在细粒度上捕获模态间潜在的语义信息,并在知识存储的过程中综合地考虑了局部知识信息和全局知识信息。知识存储模块包含跨模态图神经网络构建和层次化知识存储两部分。

(1) 跨模态图神经网络(Cross-modal GNN)构建

图4:跨模态图神经网络信息更新流程图

本文以文本到视觉的跨模态图神经网络(T2V)的构建为例进行介绍。如图4所示,T2V的中心节点为每个视觉实体(即视觉图像区域,图4中蓝色节点),中心节点的邻居节点由文本实体(即每轮对话QA,图4中绿色节点)构成,两个节点之间边的初始化操作是将两个节点进行简单地拼接。跨模态图神经网络更新流程如下:首先在问题查询Qt的引导下,对跨模态信息中潜在的语义关系进行更新:

随后基于邻居节点和更新后的语义关系对中心节点进行更新:

(2) 层次化知识存储

图5:层次化知识存储流程图

经过跨模态图神经网络的更新,图网络中的每个节点都存储了局部知识信息。局部知识信息蕴含了大量的细节信息,同时也包含着大量冗余信息。为了提取和当前问题最相关的知识信息,模型进一步对局部信息进行整合、优化,存储和当前问题相关的整体知识信息,具体操作如图5所示。

3、知识检索

传统的编码器采用简单的向量拼接的方式进行问题、对话历史和图像信息的融合,这种信息融合的方式往往很难自适应地选择与回答当前问题最相关的信息。如图6所示,作者进一步使用门控的操作方式,在问题查询Qt的指导下,从视觉知识和文本知识中检索出最相关的知识信息K:

随后K被送入视觉对话任务的两种解码器:判别式(discriminative)和生成式(generative)。判别式解码器从候选答案集合中选择出最合适的答案作为当前问题的回复,而生成式解码器则根据输入的信息基于词表生成一个答案回复。作者在实验阶段使用两种解码方法验证了模型的优越性。

图6:知识检索流程图

3

实验结果

作者在视觉对话任务的两个主流数据集VisDial v1.0和VisDial-Q上验证了模型的有效性。

1、总体结果

如表1、表2和表3所示,作者分别在判别式模型、生成式模型和VisDial-Q数据集上进行了结果比较,KBGN在绝大多数指标上胜过其他模型。

表1 在VisDialv1.0 test-std数据集上使用判别式解码器的结果比较:

表2 在VisDialv1.0 validation数据集上使用生成式解码器的结果比较:

表3 在VisDial-Qvalidation数据集上的结果比较:

2、质量分析

(1)跨模态图推断过程

为了直观理解跨模态图神经网络的工作机制,作者对跨模态图推理的过程进行了可视化。

如图7所示,以第一个例子中Reasoning Begin with Text Knowledge为例进行分析:在回答“Is the other elephant watching him?”时,模型从图像描述C中找到“him”指代的“elephant”。由于跨模态桥的存在,模型正确地定位到图像中的大象(红框),随后找出“him”是正在吃草的大象。

这一推理过程不仅揭示了模型具有良好的可解释性,同时也证明了在跨模态信息中潜在地存在着细粒度的跨模态关系依赖。

图7:跨模态图神经网络推理过程

(2)自适应的知识检索推理过程

模型还具有另一方面的优势,即从不同模态中自适应的选择知识信息。

如图8所示,图中的橙色折线代表着在回答不同问题时视觉(Vision)和文本(Text)信息源采用的比例。当回答“Is the photo in color?”和“Is there any people?”时,模型更关注于图像知识,检索出图像中的“color”和“people”。当回答“How many birds?”时,模型更注重文本知识,并从中捕获推理线索“A bird”。

图8:自适应知识检索推理过程

参考文献:

1. Zilong Zheng, WenguanWang, Siyuan Qi, and Song-Chun Zhu. 2019. Reasoning Visual Dialogs with Structural and Partial Observations. In CVPR, pages 6669–6678, 2019. 2. Xiaoze Jiang, Jing Yu, Zengchang Qin, Yingying Zhuang, Xingxing Zhang, Yue Hu,and Qi Wu. 2020. DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue. In AAAI, 11125–11132, 2020. 3. Dan Guo, Hui Wang, Hanwang Zhang, Zheng-Jun Zha, and Meng Wang. 2020.Iterative Context-Aware Graph Inference for Visual Dialog. In CVPR, pages10055-10064, 2020.


0 人点赞