SEAM论文解读：弱监督语义分割的自监督等变注意力机制

语义分割是一项基本的计算机视觉任务，其目的是预测图像的像素级分类结果。由于近年来深度学习研究的蓬勃发展，语义分割模型的性能有了长足的进步。然而，与其他任务(如分类和检测)相比，语义分割需要收集像素级的类标签，这既耗时又昂贵。近年来，许多研究者致力于弱监督语义分割(WSSS)的研究，如图像级分类标签、涂抹和边界盒等，试图达到可与全监督方法相媲美的分割性能。[1]侧重于通过图像级分类标签进行语义分割。

目前最先进的弱监督语义分割方法都是基于类激活特征图(CAM)实现的，它是一种通过图像分类标签定位目标的有效方法。但是CAM通常只覆盖到物体最显著的部分，通常在背景区域被错误激活，可以总结为目标激活不足和背景激活过度。

由不同比例的输入图像生成的CAM的比较。（a）常规CAM。（b）由我们的SEAM预测的CAM，它们在重新缩放后更加一致。来源[1]

当通过仿射变换对图像进行增强时，生成的CAM不一致，这些现象的根本原因是完全监督和弱监督语义分割之间的监督差距，并且使用分类获得的CAM之间存在无法克服的差距。网络和真实值因为分类和细分之间仍然存在本质的矛盾。

SEAM [1]将一致性正则化应用于来自各种变换图像的CAM，以提供用于网络学习的自我监督。为了进一步提高网络预测的一致性，SEAM引入了像素相关模块（PCM），该模块可以捕获每个像素的上下文外观信息，并通过学习的亲和性注意力图来修改原始CAM，从而对原始CAM在不同分支进行比较。使用改进的CAM进行标准化。SEAM由具有等变交叉正则化（ECR）损失的孪生网络实现。

网络体系结构

SEAM是等变差正则化(ER)和像素相关模块(PCM)的结合。经过特殊设计的损失后，修正后的CAM不仅在仿射变换中保持了一致性，而且非常适用于物体轮廓分类，且分割函数的属性不同。

分割函数往往是等变的，而分类任务更注重不变性。虽然分类函数的不变性主要是由归并操作引起的，但由于没有等变约束，使得网络学习过程中几乎不可能实现分割，需要整合其他监管机构来缩小完全监督学习和弱监督学习之间的监督差距。

自注意力是一种被广泛接受的能显著提高网络逼近能力的机制。它通过捕获上下文特征相关性对特征图进行修正，这也符合大多数WSSS方法的思想，即利用像素点的相似性对原始激活图进行细化。

等变正则化

在执行数据增强时，将使用各种仿射变换。在充分监督的情况下，由于真实值会得到增强，这就含蓄地对网络施加了等变量的约束，使其在不同尺度上的分割保持一定的一致性。

其中F(·)表示网络，A(·)表示任意空间仿射变换，如重划、旋转、翻转。

然而，监管信息薄弱只是监管的分类标签。在对原始图像进行仿射变换后，分类标签不能再以同样的方式进行变换。这将丢失原始的隐式约束，导致如图1所示的问题。

论文的作者介绍了Siamese网络，这两个网络具有完全相同的结构和共享权值。它测量两个输入有多相似。

Siamese网络有两个输入，两个输入同时输入导两个神经网络。这两个神经网络分别将输入映射到一个新的空间，形成一个新的空间中的输入，通过计算损失，评估两个输入的相似度。

因此，为了将正则化融入到原始网络中，将网络扩展为共享权值的双结构。一个分支对网络输出应用变换，另一个分支在网络前馈前通过同样的变换使图像失真。正则化来自两个分支的输出激活映射，以确保CAM的一致性。这两个网络的输入分别是原始图像和仿射变换后的图像。通过对双网络的映射，形成一种新的表示，然后设计Loss使这两种表示尽可能的小。

像素相关模块(PCM)

虽然等变正则化为网络学习提供了额外的监督，但仅通过经典的卷积层难以实现理想的等变。自注意力机制是获取上下文信息和逐像素预测结果的有效模块。

PCM的结构，其中H、W、C/C1/C2分别表示特征图的高度、宽度和通道数

为了利用上下文信息进一步细化原始CAM，在网络末端提出了一个像素相关模块(PCM)来集成每个像素的底层特征。

PCM的结构是指自注意机制的核心部分，在等变正则化的监督下进行了修改和训练。利用余弦距离评价像素之间的特征相似度。同时利用归一化特征空间中的内积计算当前像素与其他像素的亲缘关系。ReLU激活相似性来抑制负值。

最终CAM是原始CAM的归一化相似度的加权和。

与传统的注意力相比，

PCM消除了冗余跳转连接，以保持与原始CAM相同的激活强度（可能是原始CAM添加了更多错误消息）。
此外，由于另一个网络分支为PCM提供像素级监视，因此其准确性不如真实值高，因此可通过删除嵌入函数φ和g来减少参数，从而避免过度拟合不准确的监视。
激活函数使用Relu而不是S形，并使用ReLU激活函数和L1归一化来掩盖无关像素并在相关区域中生成更平滑的亲和力注意图。总之，它通过学习上下文关系来修改原始的CAM模块。

SEAM的损失设计

SEAM的损失分为三部分，其中cls分类损失用于大致定位对象，而ER损失用于缩小像素级和图像级监控之间的差距。ECR损失用于将PCM与网络集成在一起，以对各种仿射变换做出一致的预测。

结论

在PASCAL VOC 2012数据集上进行的大量实验表明，在相同的监督水平下，该方法的性能优于最新方法。

参考文献

1.Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation（https://arxiv.org/abs/2004.04581）

作者:Nabil MADALI

deephub翻译组

原文地址：https://medium.com/@nabil.madali/self-supervised-equivariant-attention-mechanism-for-weakly-supervised-semantic-segmentation-d56bddd2c11b

访问管理神经网络监督学习 linux

0 人点赞