优Tech分享 | 腾讯优图多模态图文内容的识别与定位在内容安全上的应用

如今，随着数字技术的发展与革新，深度学习在计算机视觉领域上得到越来越广泛应用，并出现在日常工作生活的各个场景之中，如人脸识别、物体的分类与检测等。这些应用都是基于视觉领域单一模态进行的，但其实现实世界并不局限于视觉这单一模态，听觉、语言文字也是现实世界的重要组成部分，仅凭单一模态可能无法对事物类型进行完美的判断。

在此背景下，越来越多的研究开始从多模态方面开展。然而，早期的多模态研究思路是如何将多个模型进行更好地融合，最终实现1 1>2的效果。但这种方式不仅依赖数据量的大小，且不同维度的模型特征也会因无法匹配导致不能实现合理的语义融合，最终让模型的结果大打折扣，甚至可能出现1 1<2的结果。

为解决以上问题，腾讯优图实验室研究员xavierzwlin以「多模态图文内容的识别与定位」为主题，结合腾讯优图实验室在多模态任务的研究进展、成果以及在内容安全领域中的实践经验，为大家解析背后的技术原理和内在逻辑。

多模态任务的研究进展

多模态即是从多种信息形式上实现对一个物体传播信息进行相关的处理。简单来说，一只狗可以通过其外表、叫声、触感等多种模态来表现自己，而人们日常看的视频也可以通过画面、字幕、声音乃至于弹幕向外界传递信息，这就是多模态形式。

在识别网络上广泛流传的图片广告、表情包以及用户模糊需求的过程中，仅能够进行单模态处理的机器学习无法对单一图片上的文字、人物、背景水印等多种模态进行有效识别，这种情况就需要通过多模态算法解决以上问题。

目前多模态任务有多种，例如以下四类：

识别任务：通过识别图片上的场景和文字，分辨图片想要表达的信息；

检索任务：通过识别一段文字中的不同描述，通过检索筛选出合适的目标；

Image Caption ：通过识别图片上的各类特征（背景、动作、表情、状态等），输出对于该图片的正确描述；

VQA ：结合所提出的问题对图片中的相关内容进行识别，并输出正确答案。

上述具体应用抽象为具体问题，可以分类以下几个大类：

表征学习：表征学习可分为联合表征和协同表征两类，联合表征指的是将不同模态特征映射到同一个特征空间；而协同表征则需要在将不同模态特征映射到不同空间，并实现不同模态间的某种约束关系；

Align：对齐两个模态上具有关联关系的元素；

Fusion：对同一共享空间中的多种模态进行融合成一个新的模态；

Transltaion：把一种模态转换为有对应关系的另一种模态；

Co-learning：把一个模态中的数据知识迁徙到另一个模态中去。

基于Transformer

的多模态预训练模型

基于Transformer做多模态预训练模型中最简单的方法，就是VISUALBERT：它是由NLP领域的Bert模型迁移来的。首先介绍BERT，他是基于self-attention搭建出Transformer的基础结构，再设计一系列预训练的任务，就能让BERT模型在不需要标注数据的情况下进行自监督学习。通过这类方法所得到的模型具备较强的泛化能力，可以利用预训练模型对下游任务进行Fine-tuing。

其中，BERT的自监督学习可以通过 NSP loss 和 mask language model 两种方式实现。NSP loss 会判断输入内容前后是否有逻辑关联来判断整个内容的逻辑性；mask language model 则通过已经给出的周围词来预测被隐藏的中间词。

在多模态（图像文本）预训练中，NSP loss可以通过匹配的图文和文本作为正样本，随机组合的图像和文本作为负样本，从而自监督学习到中图像的逻辑关联并判断图像与文字内容之间的关系；在使用mask language model时，可以将文本特征序列，通过隐藏某些文本让BERT自行预测被隐藏的文本是什么。

现有许多工作对VISUALBERT进行一系列改进，主要方向有任务改进和模型结构改进两种。在LXMERT（EMNLP2019）这篇论文中就提到了这两种改进方式：

在模型结构方面，论文作者提出通过两个独立的Transformer分别对图像和文字进行特征提取，再通过一个完整的跨模态的Transformer实现图像和文字的特征融合，以解决模型特征不同的多种模态之间融合困难的问题；

在任务方面，作者提出了两个改进方向。其一，隐藏部分图像内容，并通过图片中其他特征和文字描述来预测被隐藏的内容是什么；其二则是通过识别图片中的问答类数据，对文本所提出的问题进行回答。

采取预训练方式

的多模态内容安全识别

腾讯优图从模型结构优化、任务设计、模型加速等几个方面进行优化，采用预训练方式，进行多模态内容安全识别。

数据处理：文本内容需要通过OCR提取文本内容并将其转化为相应的token，输入到文本的Transformer中；图像内容则会通过CNN进行提取，将图像中所包含的区域特征全部抽取出来，形成覆盖图像全局的特征序列，输入到局部图像的Transformer中；此外，为防止预训练的过程中有过拟合，还会对卷积得到特征图，按照空间位置分离出局部特征并进行随机采样。

特征提取与融合：采取分阶段、分层融合的方式，即首先将文本内容与局部图像进行浅层次融合，形成跨模态文本局部图像Transformer模块；再用跨模态文本局部图像Transformer模块与图像的全局特征进行深层次融合，最终构建出由单模态Transformer和深浅跨模态Transformer组成的特征融合网络。

预训练任务形式的优化路径：

目前预训练任务主要分为Image-Text Match和Masked Language Model两类。其中，Image-Text Match每张图片在采样时只能匹配一段文本，训练效率较低；Masked Language Model 则属于强任务，在预训练任务中占主导地位，可能会导致最终训练出来的模型对于图像模态的识别能力较差。

为解决以上问题，腾讯优图在预训练任务中新增了一个相似性任务（similarity loss）。

首先，在构建文本Transformer 时会对采集到的文本特征进行合并，得到完整的text feature；其次，在通过CNN抽取图像特征时，会对feature maps 进行全局池化，得到完整的image feature；最后，通过计算text feature与image feature的相似度，增加文本与图像的匹配效率。

这样做的好处就是进行训练时，每输入一张图片BERT就会计算该图片与所有text feature的相似度，从过往的一张图片对应一段文本变为一张图片对应多段文本，极大程度上提升了训练效率；同时，相似性任务能够显著提升图像与文本之间的关联性，为之后的特征提供更好的学习环境；第三，feature maps和image feature都会直接收到text feature的监督，从而使CNN等图像模块也能得到充分训练。

在优化下游任务时，除了已经存在的文本模型和图像模型外，还可以把一些已经存在的特征模型加入到训练中，提升整体训练效果。如果担心加入太多模型影响预训练任务的执行速度的话，可以通过AIbret模型对特征模型实现模型小型化，也可以通过KD的方法进行模型蒸馏，还可以利用LayerDrop的方式随机跳过Transformer模块中的一些层。

在经过一系列优化后，腾讯优图的多模态预训练模型的功能和功效都获得了显著的提高：

首先，相对于单模态，多模态内容安全识别的召回率提高了30%；

其次，模型小型化让整个模型的运行速度训练效率得到了明显提升，比原始BERT模型提升了60%；

最后，预训练模型还可用于纯图像的任务之中。把经过相似性任务充分训练的CNN模块提取出来放到纯图像检测的任务中进行实验，实验结果明显优于一些基于ImageNet的训练模型。

弱监督图像描述及定位的最新研究

腾讯优图还在Grounded Image Caption 这个多模态转换任务，进行了一些前沿性探索，相关工作已中稿MM2021。不同于Image Caption， Grounded Image Caption除了需要对图片内容进行文本描述外，还要找出文本描述中对应物体在图像中的位置。

现有实现方案是通过注意力层语言预测层这种双层LSTM的模型架构来实现的。

首先通过FasterRCNN抽取对应的图像ROI特征，并使用注意力LSTM层获取图像ROI特征中的隐层，从而得到图像特征中与隐层关联性最强的图像区域；

然后将之前的图像区域输入到语言预测LSTM层，预测区域中图像所对应单词的概率。

但由于方案本身是弱监督，没有完整的监督信息，现有方案可能会出现框过大、过小或偏移等问题，导致定位精度低下，输出结果不准确或无法识别。其实解决方案也比较简单，在使用注意力LSTM层获取图像ROI特征中的隐层时，使用多个并列的注意力LSTM层预测多个局部区域，最后再把多个结果融合为一个完整的区域，让定位更加精准。需要注意的是，注意力LSTM层也不是越多越好，过多的注意力LSTM层容易产生噪声数据。

往期精彩回顾

优Tech分享 | 腾讯优图在弱监督目标定位的研究及应用

优Tech分享 | 人脸3D重建与渲染技术研究与应用

优Tech分享 | 腾讯优图提出LAP无监督多视角人脸3D重建算法，高清还原面部细节

后台回复“入群”

加入优图社群

内容安全机器学习神经网络深度学习

0 人点赞