高效Transformer | 85FPS！CNN + Transformer语义分割的又一境界,真的很快！

本文提出了一种用于城市场景语义分割的高效混合Transformer(EHT),其利用CNN和Transformer结合学习全局-局部上下文来加强特征表征,性能优于ABCNet等网络,速度高达83.4FPS!代码将开源! 作者单位:武汉大学,兰卡斯特大学等

高分辨率城市场景图像的语义分割在土地覆盖制图、城市变化检测、环境保护和经济评估等广泛的实际应用中起着至关重要的作用。卷积神经网络采用分层特征表示,具有很强的局部上下文特征提取的能力。然而,卷积层的局部特性限制了网络捕获全局信息,而这个特点对于改善高分辨率图像分割至关重要。

最近, Transformer成为计算机视觉领域的热门话题。Vision Transformer也展示了其全局信息建模的强大能力,推动了许多视觉任务,例如图像分类、目标检测,尤其是语义分割。

在本文中提出了一种用于城市场景图像语义分割的高效混合Transformer(EHT)。EHT利用CNN和ransformer结合设计学习全局-局部上下文来加强特征表示。

大量实验表明,与最先进的方法相比, EHT具有更高的效率和具有竞争力的准确性。具体来说,所提出的EHT在UAVid测试集上实现了67.0%的mloU,并且明显优于其他轻量级模型。

所提出的efficient hybrid Transformer如图所示。将Global-Local Transformer Block附加到ResNet18 Backbone的顶部，就像BottleNeck Transformer一样。利用3个具有3个跨尺度连接的跨尺度融合模块来聚合多层特征。

提出的Global-local Transformer Block(GLTB)的细节如下图所示。主要模块global-local attention block是一种混合结构，采用linear multi-head self-attention捕获全局上下文信息，采用卷积层提取局部上下文信息。

最后，对全局上下文和局部上下文应用一个add操作来提取全局-局部上下文。

本文提出了一种线性注意力机制，用泰勒展开的一阶近似来代替softmax函数。本文将线性注意力改进为线性多头自注意力，以获得更高的效率和更强的序列建模。具体公式推导过程如下:

设归一化函数为softmax，则自注意力注意产生的结果矩阵的第

行可表示为:

其中

v_j

是第

个特征。根据泰勒的扩展:

为了保证上述近似是非负的，

0 人点赞