本文提出了一种用于城市场景语义分割的高效混合Transformer(EHT),其利用CNN和Transformer结合学习全局-局部上下文来加强特征表征,性能优于ABCNet等网络,速度高达83.4FPS!代码将开源! 作者单位:武汉大学,兰卡斯特大学等
1简介
高分辨率城市场景图像的语义分割在土地覆盖制图、城市变化检测、环境保护和经济评估等广泛的实际应用中起着至关重要的作用。卷积神经网络采用分层特征表示,具有很强的局部上下文特征提取的能力。然而,卷积层的局部特性限制了网络捕获全局信息,而这个特点对于改善高分辨率图像分割至关重要。
最近, Transformer成为计算机视觉领域的热门话题。Vision Transformer也展示了其全局信息建模的强大能力,推动了许多视觉任务,例如图像分类、目标检测,尤其是语义分割。
在本文中提出了一种用于城市场景图像语义分割的高效混合Transformer(EHT)。EHT利用CNN和ransformer结合设计学习全局-局部上下文来加强特征表示。
大量实验表明,与最先进的方法相比, EHT具有更高的效率和具有竞争力的准确性。具体来说,所提出的EHT在UAVid测试集上实现了67.0%的mloU,并且明显优于其他轻量级模型。
2本文方法
所提出的efficient hybrid Transformer如图所示。将Global-Local Transformer Block附加到ResNet18 Backbone的顶部,就像BottleNeck Transformer一样。利用3个具有3个跨尺度连接的跨尺度融合模块来聚合多层特征。
2.1 Global-local Transformer Block
提出的Global-local Transformer Block(GLTB)的细节如下图所示。主要模块global-local attention block是一种混合结构,采用linear multi-head self-attention捕获全局上下文信息,采用卷积层提取局部上下文信息。
最后,对全局上下文和局部上下文应用一个add操作来提取全局-局部上下文。
1、Linear multi-head self-attention
本文提出了一种线性注意力机制,用泰勒展开的一阶近似来代替softmax函数。本文将线性注意力改进为线性多头自注意力,以获得更高的效率和更强的序列建模。具体公式推导过程如下:
设归一化函数为softmax,则自注意力注意产生的结果矩阵的第
行可表示为:
其中
是第
个特征。根据泰勒的扩展:
为了保证上述近似是非负的,