作者提出了一种编码器-解码器注意力 Transformer (EDAFormer),它由无嵌入Transformer(EFT)编码器和采用作者的无嵌入注意力(EFA)结构的全注意力解码器组成。所提出的EFA是一种新颖的全局上下文建模机制,它专注于实现全局非线性功能,而不是 Query 、键和值的具体角色。 对于解码器,作者探索了考虑全局性的优化结构,这可以提高语义分割的性能。此外,作者提出了一种新颖的推理空间缩减(ISR)方法,以提高计算效率。与之前的空间缩减注意力方法不同,作者的ISR方法在推理阶段进一步降低键-值的分辨率,这可以缩小高效语义分割中计算性能的权衡差距。 作者的EDAFormer在三个公开基准测试中,包括ADE20K、Cityscapes和COCO-Stuff,与现有的基于Transformer的语义分割模型相比,展示了具有高效计算的最高性能。 此外,作者的ISR方法在Cityscapes数据集上可以将计算成本降低多达61%,同时mIoU性能下降最小。 代码可在https://github.com/hyunwoo137/EDAFormer获取。
1 Introduction
语义分割旨在为整张图像获取准确的像素级预测,是计算机视觉领域最基本任务之一[32, 42],并被广泛应用于各种下游应用。
从基于CNN的模型到基于 Transformer 的模型,语义分割模型已经以不同的结构被提出。然而,与其他任务相比,语义分割的计算量较大,因为它处理高分辨率图像并需要逐像素预测的解码器。因此,探索这一任务的高效结构是一个重大挑战。
随着Vision Transformer[20](ViT)的成功,近期的语义分割模型主要利用基于 Transformer 的结构来提高性能,通过自注意力机制建模全局上下文,并引入了各种先进的自注意力结构。在本文中,作者将通用的自注意力机制分析为两部分。第一部分是将输入特征通过带有可学习参数的线性投影嵌入,为其分配 Query 、键和值等特定角色。第二部分作为全局非线性功能,通过softmax获取 Query 与键之间的注意力权重,然后将注意力权重投影到值上。作者关注到,全局上下文建模中真正重要的部分是全局非线性功能,而不是为输入特征分配的特定角色(即 Query 、键和值)。作者发现,一种简单但有效的方法,即去除输入特征的特定角色,反而能提高性能。因此,作者提出了一种新颖的自注意力结构,即无嵌入注意力(Embedding-Free Attention,EFA),它省略了 Query 、键和值的嵌入。
作者提出了一种强大的模块,并在此基础上构建了一种语义分割模型——编码器-解码器注意力 Transformer (EDAFormer),该模型由所提出的无嵌入 Transformer (EFT)编码器和全注意力解码器组成。对于编码器,作者采用了分层结构,并在变换块中利用作者的EFA模块有效提取全局上下文特征。对于解码器,受到文献[24, 31, 77]的启发,作者的全注意力解码器不仅利用EFA有效提取全局上下文,还探索了在解码器中哪些 Level 的特征需要更多的全局注意力。作者实证发现,更高层的特征在考虑全局上下文方面更为有效。因此,作者设计了一个全注意力解码器,对更高层特征使用更多的EFA模块。
此外,本文解决了在需要为降低计算量(或提高准确度)而设计更轻量级(或非轻量级)模型时,必须在不同的结构中进行额外训练的问题。这个问题给用户带来不便,并限制了轻量级方法的多功能性。
为了解决这个问题,作者引入了一种新颖的推理空间缩减(ISR)方法,该方法在推理阶段比训练阶段更大程度地减少键值分辨率。作者的ISR以一种与现有基于空间缩减注意力(SRA)的模型[50, 58, 59, 62, 65]完全不同的视角来利用基于SRA的结构,因为作者专注于在训练和推理阶段使缩减比例不同。通过作者的方法,在训练期间 Query 可以学习到更多的键和值信息,并在推理期间更好地应对减少的键和值。
这具有以下两个优点:
(1)作者的方法在性能略有下降的情况下减少了计算成本。
(2)作者的方法允许有选择地调整一个预训练模型的多种计算成本。
作者在三个公开的语义分割基准测试上证明了所提方法在计算成本和性能方面的有效性。与基于 Transformer 的语义分割模型相比,作者的模型在效率和准确度方面取得了具有竞争力的性能。
作者的贡献总结如下:
- 作者提出了一种新颖的无嵌入注意力结构,它去除了 Query 、键和值的具体角色,但专注于全局非线性,从而实现了强大的性能。
- 作者引入了一种语义分割模型EDAFormer,该模型采用EFT编码器和全注意力解码器设计。作者的解码器在高层次上利用了更多 Proposal 的EFA模块,以更有效地捕捉全局上下文。
- 作者提出了一种新的ISR方法,以提高效率,它能够在推理阶段以较小的性能降级减少计算成本,并允许有选择地调整预训练 Transformer 模型的计算成本。
- 作者的EDAFormer在三个公共语义分割基准测试中,在效率和准确性方面都超过了现有的基于 Transformer 的语义分割模型。
2 Related Works
Attention for Global Context
Transformer模型中的自注意力机制已经证明了模拟全局上下文的重要性。除了通用注意力方法之外,已经研究了各种注意力方法。[58, 59]提出了空间缩减注意力机制,为了提高效率,减少键值对的分辨率。[63]利用金字塔池化在多尺度分辨率上减少键值对。基于空间缩减注意力结构,[75, 23, 76]在注意力中使用了卷积层。[39, 40]提出的基于窗口的注意力方法为了效率考虑了局部窗口区域。[13]提出了结合全局注意力的局部窗口注意力。基于卷积的注意力方法[15, 62, 65, 23]使用卷积操作同时考虑局部和全局上下文。通道缩减注意力方法[31]减少了 Query 和键的通道数。然而,所有这些自注意力方法都是基于 Query 、键和值嵌入的。与这些方法不同,作者提出了一种高效的免嵌入注意力模块,重点是关注在注意力机制中全局非线性的重要性。
Transformer-based Semantic Segmentation
自从ViT [20] 在图像分类任务上取得了优异的性能之后,基于Transformer的架构也被研究用于语义分割这项最基本的视觉任务之一。SETR [78] 是首个采用Transformer架构作为 Backbone 网络并结合卷积解码器的语义分割模型。除了引入有效的编码器结构外,最近的方法 [65] 提出了高效编解码器结构用于语义分割。SegFormer [65] 结合了混合Transformer编码器和纯基于MLP的解码器。FeedFormer [50] 引入了一种基于交叉注意力机制的解码器,以参考Transformer编码器的低层特征信息。VWFormer [66] 使用Transformer编码器并在解码器中利用基于窗口的注意力来考虑多尺度表示。作者提出了一种高效的编解码器注意力Transformer模型,用于语义分割,以在编码器和解码器两端有效地捕捉全局上下文。
3 Proposed Method
本节介绍了作者的编码器-解码器注意力 Transformer (EDAFormer),它由无嵌入 Transformer (EFT)编码器和全注意力解码器组成。此外,作者还描述了作者的推理空间缩减(ISR)方法,该方法能有效降低计算成本。
Overall Architecture
图1:(a)所提出EDAFormer的总体架构,由两个主要部分组成:一个EFT编码器和一个全注意力解码器。EDAFormer的编码器和解码器设计采用了无需 Query 、键和值嵌入的自由注意力结构。(b)包含EFA模块的EFT块的细节。
EDAFormer. 如图1(a)所示,作者采用分层的编码器结构,这种结构在语义分割任务中是有效的。当输入图像为 时,每个阶段输出的特征定义为 ,其中 表示编码器阶段的索引, 是通道维度。在每一个阶段,特征首先通过块嵌入模块进行下采样,然后输入到 Transformer 模块中。如图1(b)所示,作者编码器的 Transformer 块结构由嵌入自由注意力(EFA)和前馈层(FFL)组成。如图2(b)所示,作者的EFA模块省略了 Query 、键 和值 嵌入的线性投影,这使其轻量化并有效地提取全局上下文。此外,作者在推理阶段采用了空间缩减注意力(SRA)结构[59],以利用作者的ISR。作者使用非参数操作和平均池化来减少键值的空间分辨率,这在推理阶段的空间缩减对性能的影响较小。EFA模块的公式如下:
其中 和 分别表示通过平均池化进行的空间缩减和缩减比。 直接用作 Query ,空间缩减后的特征用作键值。在利用softmax函数计算 Query 与键之间相似度分数的部分,可以应用全局非线性到输入特征上,允许在不区分 Query 、键和值特定角色的情况下提取全局上下文。然后,FFL的公式如下:
其中 DW 指的是深度卷积。由于EFA和FFL是顺序连接的,作者的EFT块的整个过程可以公式化为:
其中 是中间特征,LN是层归一化。这种无需嵌入的结构对于分类和语义分割是有效的。此外,作者从经验上发现,在考虑计算性能与性能退化的权衡方面,作者的无需嵌入结构对于内部空间识别(ISR)是有效的。
全注意力解码器。 如先前模型[70, 77, 24]所展示的,将自回归注意力(SRA)应用于解码器中的编码器特征是捕捉全局语义感知特征的有效方法。因此,作者设计了一个全注意力解码器,它由所有解码阶段的EFT块组成。作者还探索了解码器使用EFT块的最佳结构。结果发现,将更多的注意力块应用于高级特征对于捕捉全局的语义信息性特征是有效的。如图1(a)所示,作者的解码器具有分层结构,分别在至解码阶段使用3、2和1个EFT块。这种结构相比于先前基于变换的分割模型的解码器包含了更多的转换块,但由于EFT块是轻量级的,所以其计算成本相比于先前模型要低。
在全注意力解码器中,每个编码器阶段的输出特征首先被送入每个解码阶段的EFT块中,其中表示解码器阶段的索引。然后,每个解码阶段的特征通过双线性插值上采样到的分辨率。这些上采样的特征随后被连接起来并通过线性层进行融合。最后,通过另一个线性层将最终的预测 Mask 投射到类别数的 Mask 中。这个过程可以表示为:
其中 是最终的预测 Mask 。
Inference Spatial Reduction Method
图3:作者第一阶段编码器中的ISR方法概述。作者的ISR在推理过程中应用减少比率,有选择地减少键和值标记。这个框架可以在每个包含自注意力结构的阶段执行。它能够灵活地降低计算成本,同时不破坏空间结构。
与之前的SRA不同,作者的推理空间缩减(ISR)方法在推理阶段减少键值的空间分辨率。作者的方法通过改变与EFA模块中平均池化的“减少比率”相关的超参数来实现计算效率。由于自注意力具有特殊的结构,作者的ISR可以用于自注意力结构中,因为减少键和值的分辨率不会影响输入和输出特征的大小。由于这种结构,可以在推理过程中调整减少比率,而不会影响输入和输出特征的分辨率。
然而,在训练中大幅减少键和值的分辨率虽然具有计算效率优势,但会导致性能下降,因为 Query 无法从键和值中获取足够的信息。为了解决这个问题,作者的ISR通过在推理时减少键和值的分辨率,来减轻计算成本与准确度之间的权衡差距。在这部分,作者描述了作者的ISR是如何应用于作者的EDAFormer,这是有效应用作者ISR的优化架构。
如图1所示,作者的EDAformer在编码器-解码器结构中均使用了 Proposal 的 Transformer 块。每个基于池化的SRA在每个编码器阶段和解码器阶段都有相应的减少比率设置,以减少键和值的分辨率。如图3所示,在训练期间,每个编码器阶段的减少比率设置为[8, 4, 2, 1],这是其他先前模型[58, 59, 65]使用SRA时的默认设置。解码器阶段的减少比率,它接收每个编码器特征,设置为,这与相应编码器阶段的减少比率相等。和分别表示训练期间编码器和解码器的减少比率。先前注意力的计算复杂度如下:
其中和SRA分别表示计算复杂度和空间缩减注意力。、和分别代表特征的高度、宽度和通道。是训练阶段的减少比率。
在这些减少比率设置下,作者训练了作者的EDAFormer以获得预训练权重。之后,在推理阶段,可以选择性地调整推理计算减少,由用户自行决定选择减少比率。如图3所示,和分别表示推理时编码器和解码器的减少比率。它们表示为:
其中和分别表示推理时编码器和解码器的附加减少比率。应用作者的ISR后,计算复杂度如下:
其中ISR表示推理空间缩减,是推理时的附加减少比率。因此,作者的ISR的一个优点是,在预训练模型上容易获得计算减少,无需额外训练。与训练中减少相比,作者的ISR减少了性能下降。经验上,编码器-解码器中的最佳设置是,它在性能下降与计算成本减少之间的比率最优。
4 Experiment
Experimental Settings
数据集。 ADE20K [79] 是一个具有挑战性的场景解析数据集,它包含了室内和室外环境下的图像。该数据集包含150个语义类别,以及20,210/2,000/3,352张图像用于训练、验证和测试。Cityscapes [14] 是一个城市驾驶场景数据集,包含5,000张精细标注的图像,分为19个语义类别。其中训练、验证和测试集分别包含2,975/500/1,525张图像。COCO-Stuff [3] 是一个具有挑战性的数据集,包含164,062张图像,标注了172个语义类别。
实现细节。 作者使用mmsegmentation代码库在4块RTX 3090 GPU上训练作者的模型。作者在ImageNet-1K [16]上对编码器进行预训练,而解码器则是随机初始化的。对于分类和分割评估,作者分别采用Top-1准确率和平均交并比(mIoU)。在ImageNet预训练中,作者采用了与PVTv2 [58]相同的训练设置和数据增强。作者应用了随机水平翻转,随机缩放比例在0.5-2.0之间,以及针对ADE20K、Cityscapes和COCO-Stuff分别随机裁剪为512512、10241024和512512的大小。对于ADE20K和COCO-Stuff,批量大小为16;对于Cityscapes,批量大小为8。作者在ADE20K、Cityscapes和COCO-Stuff上使用AdamW优化器进行160K次迭代。
在ImageNet上的EFT编码器。**在表2中,作者将无嵌入Transformer(EFT)编码器与现有的模型在ImageNet-1K分类任务上进行了比较。作者的EFT模型在性能上超越了其他Transformer模型。这一结果表明,即使在没有 Query 、键和值的嵌入的情况下,作者的EFT Backbone 网络通过全局考虑空间信息,在分类任务中仍然有效。
Effectiveness of our EFA at Decoder
为了验证在解码器中考虑全局性是否有效,作者在表3(a)中比较了在EFT块中Embedding-Free Attention(EFA)位置的不同操作。所应用的操作包括局部上下文操作(即,深度卷积(DW Conv)、卷积)和全局上下文操作(即,带嵌入注意力、不带嵌入注意力)。作者的不带嵌入结构的模型相较于深度卷积和标准卷积,分别提高了1.6%和2.4%的mIoU。这些结果表明,在解码器中捕捉全局上下文对于提高mIoU性能是重要的。尽管带嵌入方法通过捕捉全局上下文优于局部上下文操作,但作者的EFA在轻量级模型参数和FLOPs的情况下,进一步将mIoU提高了0.8%。这表明作者的EFA模块能更好地建模全局上下文。
Structural Analysis of our All-attention Decoder
作者的解码器是一个{3-2-1}结构的层次化结构,包含六个EFT模块,它为高级语义特征分配了更多的注意力模块。在表3(b)中,作者验证了与三种情况相比,作者解码器结构的有效性。{2-2-2}结构的情况将两个EFT模块平均分配给所有解码器阶段。{1-2-3}、{1-4-1}以及作者的{3-2-1}情况分别将更多的EFT模块分配给解码器的第3、第2和第1阶段。因此,作者的{3-2-1}结构更关注高级特征,其性能比{2-2-2}、{1-2-3}和{1-4-1}分别提高了0.8%、1.7%和1.8%的mIoU。这些结果表明,将额外的注意力层分配给包含更丰富语义信息的高级特征,对于语义分割性能更为有效。
Effectiveness of our ISR in our EDAFormer
在表4中,作者验证了所提出的EDAFormer-T和EDAFormer-B中推理空间缩减(ISR)方法的有效性,并实证找出了最优的缩减比例。在训练过程中,作者的EDAFormer使用基础设置-进行训练。在推理过程中,作者尝试将ISR仅应用于解码器(即)、编码器-解码器的一部分与采用基础设置的EDAFormer-T相比,采用最优设置的EDAFormer-T在ADE20K、Cityscapes和COCO-Stuff上的计算量分别减少了16.1%、37.4%和16.1%。在ADE20K上的mIoU性能仅下降了0.2%,而在COCO-Stuff和Cityscapes上没有下降。此外,EDAFormer-B在ADE20K和COCO-Stuff上计算量减少了8.1%,mIoU仅下降0.1%,在Cityscapes上计算量减少了25.3%,而性能没有下降。这些结果表明,作者的ISR方法简单而有效,可以在性能略有下降的情况下显著减少计算成本。此外,作者的方法仅在推理时调整缩减比例,无需微调,就显示出惊人的有效性。尽管作者的ISR无需微调就有效,但为了在更高缩减比例[16, 8, 4, 2]-[2, 4, 8]下进一步补偿性能下降,作者还是对模型进行了40K次迭代的微调。结果是,EDAFormer-T在ADE20K上的mIoU下降了0.2%,在Cityscapes和COCO-Stuff上的mIoU下降了0.1%。EDAFormer-B在ADE20K和COCO-Stuff上的mIoU分别下降了0.3%和0.2%,在Cityscapes上的mIoU没有下降。
Comparison between the model with and without ISR.
在表5(a)中,作者对比了采用ISR与不采用ISR的模型,两者在训练和推理阶段均使用了相同的降采样比例。作者的EDAFormer模型结合了ISR,在训练时使用降采样比例,并在推理阶段调整为。尽管在推理阶段的计算量相同,但采用ISR的模型在mIoU指标上比不采用ISR的模型表现得更好,分别提高了EDAFormer-T和EDAFormer-B各0.5%。因此,作者的模型结合了ISR,在训练过程中考虑了关键和值信息的足够表达,相比于在训练过程中减少关键和值的分辨率的模型,能够实现更优的性能。
Effectiveness of Embedding-Free Structure for ISR
为了验证作者无嵌入结构在ISR中的有效性,作者对采用了嵌入注意力机制的消融模型进行了实验,将其应用到作者全注意力解码器中的EFA位置。在表5(b)中,作者还与采用嵌入的消融模型(即,带嵌入)进行了比较,将作者的ISR应用于解码器的各个阶段。带嵌入结构的性能随着缩减比例的增加而逐渐下降,当缩减比例为[8, 4, 2, 1]-[4, 8, 12]时,性能下降了0.8% mIoU。然而,作者的结构在缩减比例达到[8, 4, 2, 1]-[3, 6, 9]时并未出现性能下降,仅在缩减比例为[8, 4, 2, 1]-[4, 8, 12]时mIoU有0.1%的下降。
Comparison of Spatial Reduction Methods for ISR
在表6(a)中,作者进行了实验,以比较在关键值空间缩减方面,哪种方法在mIoU和推理速度(FPS)上表现更佳。基于二分匹配的池化方法,即便应用于每个编码器-解码器阶段,也没有出现mIoU的退化。然而,二分匹配最多可减少50%的标记,相应的缩减比率为()。这是因为该方法将标记划分为两个集合并进行合并。此外,这种方法由于匹配算法而产生了额外的延迟。因此,尽管二分匹配减少了注意力计算的量,但与不使用ISR的方法相比,其FPS相似。最大池化方法导致mIoU下降了0.3%,而重叠池化的速度仅略慢于平均池化。因此,作者采用了平均池化方法来减少标记,这是一种适用于一般目的的简单操作,并且在性能与推理速度方面最为有效。
Inference Speed Enhancement
在表6(b)中,作者展示了不同缩减比例下的推理速度(每秒帧数,FPS)对比。作者通过使用单个RTX 3090 GPU(不采用任何额外的加速技术)来测量推理速度。与基准设置相比,应用作者的ISR(图像空间缩减)在的缩减比例下分别实现了29.4%和47.1%的FPS提升。随着缩减比例的增加,降低了计算成本,推理速度变得更快。这些结果表明,通过作者的ISR实现的计算缩减能够提升实际的推理速度。
Applying ISR to Various Transformer-based Models
作者的ISR不仅可以普遍应用于作者的EDAFormer,也可以通过使用额外的空间缩减应用于其他基于Transformer的模型。
为了验证作者ISR的泛化能力,作者将它应用于表7中的各种模型。基于Transformer的主干网络用作者的解码器进行语义分割任务的训练。对于基于卷积的自注意力模型(例如CvT [62],MViT [72]和LVT [67]),作者的ISR显著减少了34.841.6%的计算量,同时性能下降了0.10.3%。作者的方法在基于窗口注意力模型(例如Swin [40]和DaViT [18])、基于空间缩减注意力模型(例如PVTv2 [59]和MiT [65])以及分割模型(例如SegFormer [65]和FeedFormer [50])上也显示出有效计算减少且性能下降较少。对于使用交叉注意力解码器的FeedFormer的结果表明,作者的方法在交叉注意力机制中也是有效的。这些结果表明,作者的ISR框架可以有效地扩展到使用不同注意力方法的多种基于Transformer的架构,而作者的EDAFormer是特别为有效应用作者的ISR而优化的架构。
Visualization of Features
其次,作者比较了在注意力得分图与值之间操作后的输出特征。令人惊讶的是,应用ISR前后的输出特征几乎相同。因此,这些结果表明,即使在对键和值进行空间缩减的推理过程中,通过自注意力操作获得的信息仍然得到了保持。第三,比较预测图时,应用ISR前后的结果几乎相同。这意味着ISR的效果不仅适用于解码器第二阶段,也适用于整个EDAFormer网络。
Qualitative Results
在图5中,作者将作者的分割预测在ADE20K、Cityscapes和COCO-Stuff数据集上与基于嵌入的变换模型(即SegFormer [65])进行了对比可视化。作者的EDAFormer在目标边界附近的细微细节上预测得更好。与SegFormer相比,作者的模型在对大区域(例如,道路、屋顶和卡车)的分割上也表现得更加出色。此外,对于同一类别(例如,沙发)但相隔较远的物体,作者的模型预测比SegFormer更为精确。这表明作者的无嵌入注意力结构能够捕捉到足够的全局空间信息。
5 Conclusion
在本文中,作者提出了一种基于 Transformer 的高效语义分割模型EDAFormer,它利用了所提出的无需嵌入的关注模块。无需嵌入的关注结构可以从全局上下文建模的角度重新思考自注意力机制。
此外,为了提高效率,作者提出了新颖的推理空间缩减框架,该框架改变了训练-推理阶段之间的条件。
作者希望作者的关注机制和框架能够进一步推动对轻量级和高效基于 Transformer 的语义分割模型的探索性研究。
参考
[1].Embedding-Free Transformer with Inference Spatial Reduction for Efficient Semantic Segmentation.