论文地址: http://openaccess.thecvf.com/content_CVPR_2019/papers/Gao_Dynamic_Fusion_With_Intra-_and_Inter-Modality_Attention_Flow_for_Visual_CVPR_2019_paper.pdf 代码:…… 来源:香港中文大学 论文名称:Dynamic Fusion with Intra- and Inter-modality Attention Flow forVisual Question Answering 原文作者:Peng Gao
多模态特征的有效融合是VQA问题的一个热点。本文提出了一种动态融合多模态特征和模态内、模态间信息流的新方法,使信息在视觉和语言模态间交替传递。它能较好地捕捉语言和视觉域之间的高层次交互,从而显著提高VQA的性能。该研究还表明,基于其他模态的动态内模注意流可以动态地调节目标模态的内模注意,这是多模特征融合的关键。对VQA 2.0数据集的实验评估结果表明,该模型达到了SOTA效果。为了全面分析所提出的方法,进行了广泛的消融学习。
下面是论文具体框架结构以及实验结果:
声明:文章来自于网络,仅用于学习分享,版权归原作者所有,侵权请联系删除。