荐读 | “侧抑制”卷积神经网络，了解一下？

作者简介

本文作者曹春水， 2013年获得中国科学技术大学本科学位。目前是中国科学技术大学与中国科学院自动化研究所联合培养的在读博士，将于2018年6月份博士毕业。主要研究方向是深度学习与计算机视觉，博士期间的工作分别被ICCV，AAAI和TPAMI接收。

导读

自顶向下的反馈与侧向抑制的联合作用广泛存在于视觉神经系统中，但是在计算机视觉领域，这一重要的机制并没有被深入地研究。曹春水近期的研究发现把侧向抑制机制建模到卷积神经网络中对视觉注意和显著性检测任务很有帮助。受到最近神经生物学的研究成果的启发，该研究提出新的侧向抑制计算模型并把它嵌入到分类卷积神经网络(CNN)自顶向下的反馈计算过程中。经过这种计算后（仅执行一次）, 卷积神经网络就能生成准确的类别相关的关注热图（Attention Maps）。同时，把这种侧向抑制卷积神经网络（LICNN）应用到弱监督的显著性物体检测任务中，在ECSSD、HKU-IS、PASCAL-S 和 DUT-OMRON等数据库上的实验结果证明了LICNN的优势。

在神经生物学中，Object Binding和选择注意机制等经典理论表明自顶向下的反馈可以传递重要信号到视觉皮质的感受区域并且提供了选择与特定任务相关的神经元的准则，而侧向抑制通过引入神经元之间的竞争机制能够进一步调节反馈信号，这样能够增强视觉对比度的同时能更好地感知感兴趣的物体对象。受此启发，该研究提出了一种将侧向抑制引入到CNN当中的方法。

侧抑制卷积神经网络

众所周知，卷积神经网络内部的神经元能够表达各种各样的视觉模式。给定一张输入图片，在前馈过程中表达各种视觉模式的神经元之间会互相竞争，并且最终为一个或者多个类别产生贡献，最终使得在分类层各个类别上产生不同的得分。而类别特定的梯度能够近似的估计每个模式的重要性，于是，该研究采用针对类别特定的梯度作为LICNN的反馈信号。为了把目标相关的模式捆绑在一起来捕获图片中感兴趣的区域，该研究提出了一种新颖的侧向抑制模型，并把这一模型嵌入到自顶向下的梯度反馈过程中。

图1 侧抑制卷积神经网络

图1 展示了研究的基本思路。图1(a)是输入图片，选择3张“雪地里的斑点狗”图片作为展示以突显模型的能力，基本过程如下：首先一个已预训练的卷积神经网络通过前馈过程处理输入的图片；然后，如图1(b)所示，在反馈梯度的过程中，把侧向抑制机制引入到隐层神经元之间，每个神经元的状态是由它自己和周围神经元的自顶向下信号所决定；完成侧抑制之后，能够为每张输入图片产生一张基于梯度的热图，如图1(c)所示。通过使用LICNN，能够获得具有区分性的、指定类别的关注热图，并且关注热图中噪声很少。

选择性目标注意与显著性目标检测

图2的上半部分展示了更多针对不同类别的选择性注意效果图，图中感兴趣的物体被用彩色高亮。正如图中可见，模型的注意力主要集中在感兴趣的物体周围，同时物体的形状被比较好地保持了。

另一方面，该研究认为视觉注意力的本质在于相应区域的视觉信息对人类视觉细胞具有强烈的刺激，并且这种刺激具有语义意义。更精确地说，是人脑内部强烈激活的表达有语义意义视觉模式的神经元让人感受到注意力被吸引。基于这样的观点，该研究通过在大规模数据集上训练分类神经网络，使得网络内部的神经元表达丰富的视觉模式，当任给一张图片后，通过LICNN将强烈激活的神经元筛选出来并整合到一起，可以实现显著性目标检测的目的。

图2 选择性目标注意与显著性检测结果示意

具体来讲，既然给定图片中显著性物体的视觉模式能够对分类决策结果有贡献，那么显著性图可以通过选择最高得分的类别在LICNN框架中以自顶向下反馈信号的方式来产生。如图2，得分最高的五个类别可以被视为自底向上的显著性目标物部件的检测器。然后对于这五种类别，分别在隐层神经元中应用侧向抑制来进行类别指定的反馈。这样能获得五张关注热图，如图2(c)所示。研究通过整合这五张关注热图便得到图2(d)中的显著图。图2(e)中展示了基于同样的方法针对更具挑战性的图片产生的显著图。

一个有趣的发现是该研究的LICNN能够有效的定位到图片中的显著性物体，尽管有时图片中并不包含CNN预定义的物体类别。这是因为一个强大有力的分类卷积神经网络已经学习到了很多不同物体对象所共享的、局部的视觉模式，而侧向抑制能够使得感兴趣的物体更加明显。尽管这些物体对象并不属于任何训练的类别，但它们的部件却是跟其他的类别所共享。

侧抑制计算模型

在神经生物学领域，视觉侧向抑制是由Ernst Mach 于1865年提出猜想并描述在马赫带中，马赫带揭示了侧向抑制禁止了从兴奋神经元到侧向的邻近神经元之间的动作电位传播。这制造了刺激强弱的不同对比，从而增强感官知觉。该研究使用一种新的计算模型来模拟这一机制，并将其整合进CNN分类器自顶向下的过程中。一个有趣的发现是结合了反馈信号的侧向抑制可以确保只有最相关的神经元可以被分组在一起。

一般来说，卷积层的输出由后续的ReLU层来决定是否某个模式会被激活。因此，该研究在ReLU层被激活的神经元之间引入侧向抑制。研究首先利用类别特定的梯度计算所有ReLU的神经元对特定类别的贡献权重（CW）。假设，第k层产生一个尺寸为(W,H,C)的CW矩阵，其中(W,H,C)分别代表宽度、高度和通道数。通常来说，在同一个位置的C个神经元虽然共享感受野内的信息，却表达不同的模式。接着，通过选择每个位置的最大CW来进行沿通道方向的简单抑制，然后通过L2范数归一化，于是得到一个归一化后的CW图，可称为Max-C 图，它的维度是(W,H)。最后，该研究构建Max-C 图中不同点之间的侧向连接来计算每个位置的抑制强度。侧向抑制值的计算方式如下：

图3 侧抑制计算模型的各部分可视化示意图

如图3所示，该研究采用了一个预先在Imagenet 2012上训练好的VGG16。该研究的侧向抑制模型应用于VGG16里所有的ReLU层。该研究不失一般性地呈现了中间层“relu4_3” 的抑制过程。输入图片和最终关注图显示在图3 (a)中。为了可视化原始的梯度，该研究计算沿通道方向的梯度的总和，如图3(b)所示，由此产生的关注图特别嘈杂。图3(c) 展示了通过沿通道抑制产生的Max-C 图。它显露出了一种推断目标相关物体的趋势。但是它也包含很多噪声，并且这些噪声会在自顶向下的反向层级传播过程中迅速地扩散开。图3 (d)和(e) 显示了差分项和均值项分别对侧向抑制的影响。均值项为目标物体创造了一个保护区。而差分项对目标对象边缘附近的背景施加了严重的惩罚。因此，物体对象的边缘会被增强。图3(f) 展示了“relu4_3”层的最终结果，它通过结合差分项和均值项得到。这个例子直观地证明了该研究所提出的侧向抑制模型能够有效地锐化边缘，减少噪声和增加目标对象和背景之间的对比度。

实验结果

作者会评估由LICNN生成的自顶向下的关注图的类别区别力大小。采用了基于点的感兴趣目标物定位来评测该研究的模型。测试集是PASCAL VOC 07 的测试数据集，包含4952张图片。将LICNN和以下方法进行比较：Excitation Backprop，Error Back-propagation和反卷积神经网络。

表1 基于VGGNet的感兴趣目标物定位平均准确率 (%)

表2 基于GoogleNet的感兴趣目标物定位平均准确率 (%)

表1 记录了该研究的实验结果，给出了整个测试集和困难子集上的量化结果，同时表中以Center方法作为对比基线，该方法是直接使用图片中心作为预测的。为了更有说服力，该研究进一步将侧抑制机制嵌入到GoogleNet中，结果记录在表2中。另外，该研究还将LICNN与Zhou等人的CAM方法进行了比较。正如所有结果所证明的，LICNN显著地优于所有比较的方法。

该项研究进一步探索LICNN在自然图片中检测显著物体的能力。在四个广泛使用的数据集上测试该方法的有效性。这四个数据集包括：HKU-IS，PASCAL-S，ECSSD，DUT-OMRON。比较了最近的一系列优秀的显著性检测算法，包括传统的DRFI， wCtr*， RC， BSCA， PISA和基于强监督学习的LEGS, MC与MDF。在表3中展示了比较结果。

表3 LICNN与其他方法的对比结果

从结果可以看到，该方法显著地超过了传统方法。和强监督的方法比，该方法优于方法LEGS并且接近方法MC和MDF。注意该方法使用的是针对分类任务的VGGNet 网络，模型的训练过程中仅仅需要类别标签，而类似LEGS，MC，和MDF这些强监督方法则需要像素级标签告诉网络哪些像素是显著的。

LICNN是用反馈机制和侧抑制建模视觉注意机制的一次重要的尝试。它提供了一个新的视角去实现脑科学研究领域的概念。作者相信这代表了今后设计视觉算法的一个研究方向。

更多详细内容请参考以下文章：

[1] ChunshuiCao, Yongzhen Huang, Zilei Wang, Liang Wang, Ninglong Xu, and Tieniu Tan, “LateralInhibition-inspired Convolutional Neural Network for Visual Attention andSaliency Detection”, In Association for the Advancement of Artificial Intelligence (AAAI), 2018.

[2] Chunshui Cao, Yongzhen Huang, Yi Yang, Liang Wang, Zilei Wang, and Tieniu Tan, "Feedback Convolutional Neural Network for Visual Localization and Segmentation'', accepted by the IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2018.

[3] Chunshui Cao, Xianming Liu, Jiang Wang, Yinan Yu, Wei Xu, Yi Yang, Deva Ramanan, Chang Huang, Zilei Wang, Thomas Huang, Yongzhen Huang, Liang Wang, and Tieniu Tan "Look and Think Twice: Capturing Top-down Visual Attention with Feedback Convolutional Neural Networks", IEEE International Conference on Computer Vision (ICCV), 2015.

机器学习深度学习人工智能图像处理卷积神经网络

0 人点赞