IENet: Interacting Embranchment One Stage Anchor Free Detector

2022-09-02 13:04:21 浏览数 (1)

摘要

航空图像中的目标检测是一项具有挑战性的任务,因为它缺乏可见的特征和目标的不同方向。目前,大量基于R-CNN框架的检测器在通过水平边界盒(HBB)和定向边界盒(OBB)预测目标方面取得了显著进展。然而,单级无锚解仍然存在开放空间。提出了一种基于逐像素预测检测器的航空图像定向目标单级无锚检测器。我们通过开发一个具有自我注意机制的分支交互模块来融合来自分类和框回归分支的特征,从而使它成为可能。在角度预测中采用几何变换,使预测网络更易于管理。我们还引入了一种比正多边形借条更有效的借条损耗来检测OBB。在DOTA和HRSC2016数据集上对所提出的方法进行了评估,结果表明,与最先进的检测器相比,我们所提出的IENet具有更高的OBB检测性能。

1、简介

近年来,随着深度卷积神经网络的发展,在自然图像中的目标检测取得了巨大的成功。利用主流的目标检测方法(如Faster-RCNN[33]、YOLO[32]、SSD[24]),航空图像中的目标检测也取得了显著进展。然而,在航空影像中,目标是向下捕捉的,而且目标的方向往往是任意的,因此很难对遥感和航空影像中的目标进行标准的检测方法。这项任务伴随着以下重大挑战:

  • 在航空图像中,大多数物体都有相似的形状和较少的外观特征比自然图像(如。、房屋、车辆)。在这种情况下,这些物体的形状比模型的外观更明显,因此可能导致误检。
  • 目标高度复杂的背景和变化的外观增加了目标检测的难度,特别是对于小而密集分布的目标。
  • 鸟瞰视角增加了物体方向变化的复杂性,模型难以获得表示多样性角度的参数。

为了解决这些挑战,大多数两阶段的面向目标检测器已经给出了出色的性能。这些方法从R-CNN机制中获益良多[13,20,6]。但是检测数据集中的大部分目标都是水平边界盒标记的,这可能会导致目标之间的区域重叠,所以像DOTA[37]这样的数据集带有高级的面向标签的边界盒,可以解决重叠问题。[43]通过在区域建议步骤和ROI回归步骤的回归头部添加不同的角度锚点来处理方向回归,这使得现有的R-CNN方法通过识别目标的方向角来产生有方向的边框。然而,大部分R-CNN框架中的特征提取层(如RoI Pooling[7]、可变形卷积[8]、空间变换[17])在预测有向边界盒时存在局限性,这将导致提取物体之间的重叠特征。因此,[10]提出了RoI变换算法来充分提取方向目标的旋转区域特征。

众所周知,尽管R-CNN的两阶段机制提高了检测的准确性,但该机制也增加了训练步骤的计算复杂度,降低了测试步骤的推理速度。在使用R-CNN框架进行航空图像中障碍物出口定向目标检测时,这些网络都需要精心设计并在分量和超参数上精挑细选。为了解决上述问题,有必要设计一种统一的一级探测器用于航空图像定向目标检测。为了减少训练时间和推理时间,一阶检测器充分利用了全卷积网络(FCNs)的优势。通过特征金字塔网络(FPN)和预定义锚盒的功率,一级探测器实现了最先进的性能。然而,锚盒策略也需要很多计算时间。因此,FCOS提出了逐像素预测的方式,受语义分割的启发,该方法优于大多数无锚点解的单级锚基检测器。锚基方法预测HBB,只需添加角锚就可以转换为OBB。因此,Textboxes 开发了一种用于定向场景文本检测的一级检测器,直接使用HBB作为锚点,回归OBB。这种方法在文本检测上执行最先进的结果。然而,即使该方法是面向目标的检测,但是场景文本与航空图像目标有很大的不同,这是更难预测的,因为在HBB中,相当大的密集簇对象有更多的不对中。另外,航空图像的一级定向目标检测没有无锚解,这是因为一级检测器没有像RoI Pooling这样优秀的特征提取器,而RoI Pooling是R-CNN检测器的重要组成部分。因此,特征提取器的缺乏严重影响了模型的面向目标识别。

单级和两级检测方法都不能有效地解决OBB问题。然而,设计一个模型是至关重要的,它将平衡性能和速度的预测OBB。本文提出了一种用于航空图像定向目标检测的单级无锚网络。据我们所知,这项工作将是航空图像定向目标检测的第一步无锚解决方案。然而,大多数检测模型将OBB作为框回归的辅助任务,而将角度预测作为独立的任务。我们在FCOS网络的基础上构建了我们的网络,并使用一个独立的分支将我们的方向任务添加到网络中来回归方向参数。在此基础上,我们提出了一种基于注意力机制的分支融合黑色,即交互分支(IE)黑色,以提取更多面向预测的特征,使分类和回归分支的特征都能得到很好的利用,为角度预测提供更实用的特征。IE黑强制任务与网络中所有分支的功能交互。交互行为有助于网络选择更加一致和相关的特征,通过这个过程,训练更加稳定,有方向性的预测可以提高。为了提高计算效率,我们引入了一个简单的借据损耗版本,同时也允许网络产生高精度的借据损耗。为了进一步证明我们的方法的有效性,我们修改了目前最先进的一级探测器,以适应预测OBB。然而,我们应用几何变换来表示OBB,将角度预测任务分成两个独立的任务。在相同的主干设置下,我们的网络优于自适应基线网络,并与目前最先进的两级检测器进行了比较,表明我们的模型在保持较高的计算和内存效率的同时获得了较高的性能。

综上所述,我们的贡献如下:

  • 我们将方向预测作为独立任务,提出了一种用于航空图像定向目标检测的单级无锚检测器。此外,我们应用几何变换和OBB版本的借据损失来更好地回归OBB。
  • 我们利用自我注意机制开发IE模块,迫使取向预测任务与分类和回归分支中的特征交互,进一步提高取向检测的准确性。
  • 我们展示了与最先进的用于航空图像定向检测的公共数据集上的一级检测器相比,我们的方法所取得的结果。

2、相关工作

2.1、两阶段检测器

R-CNN介绍了第一个两阶段目标检测方法。两阶段检测器通过对图像进行两次观察来解决目标检测问题,第一次观察是生成一个区域建议集,该区域建议集检测出目标的可能区域。第二步是从每个区域建议的主干特征图中提取特征,并将特征发送到分类器以识别对象类别。随后,Fast R_CNN设计了一个RoI池化层,以完全卷积的方式提取特征。通过这种方式,RoI池可以加快处理速度。Cbnet在一些细节上改进了这个两阶段框架。

然而,这一进展并不仅仅适用于面向对象的检测,因为这些方法是基于水平边界框的。[30,28]设计旋转锚点生成旋转区域方案(R-RoI),并使用旋转区域翘曲从R-RoI中提取特征。然而,基于R-RoI的方法涉及生成大量的旋转建议。旋转的提议锚嵌入神经网络具有挑战性,这将花费额外的时间来生成旋转的提议。因此,由于旋转锚的计算cast,[10]提出了一种避免旋转锚计算的方法,利用光全连通层将RoI转化为RRoI。此外,它们还在匹配两个obb的同时增加了一个借据损耗,有效地避免了不对齐的问题。这种两级检测器在获得高性能的同时牺牲了计算成本。因此,我们使用无锚点的一级检测器直接预测目标,无需进行复杂的锚点匹配和RoI特征提取。

2.2、一阶段检测器

单级方法获得了高性能和运行速度,这是因为单级检测器通常比两级检测器的计算效率更高。然而,锚基探测器通过预测与密集锚盒的偏移量来检测目标,在训练过程中会造成正、负锚盒之间的巨大不平衡。RetinaNet建议Focal Loss来解决这个不平衡的问题。然而,这仍然需要在锚点上进行大量的计算,FCOS引入了一个无锚点的一级检测器,该检测器是在之前的工作RetinaNet的基础上构建的,使用的是逐像素预测方式。这将模型从achor匹配的高密度计算中解放出来。实现高性能的单级定向目标检测器大多是文本场景检测器[,[38]使用mask形成OBB。该方法可直接应用于用OBB标记目标的航空影像数据集。然而,文本场景检测与空中目标检测有很大的不同,在第一节中提出了不同的挑战。IENet还采用了单阶段直接回归所有代表目标的参数,并借助out几何变换将角度预测分解为两个几何参数预测。这使得模型预测的参数分布较低。进一步,为了解决无锚解下的OBB检测问题,在[34]上构造了IENet。

3.3、Self Attention机制

自我注意机制[35,3]最初被提出用来解决捕捉全局依赖关系的机器翻译问题。近年来,自我注意被应用到计算机视觉任务中,[5,31]证明了自我注意对于任务来说是更相关的特征。此外,[18,40,41]提出了捕捉长期依赖关系的非局部操作,并实现了最先进的分类精度。[16]还对目标检测和实例分割进行了实验,也得到了较高的贴图。在本工作中,我们以自我关注的方式进行IE模块的设计,通过上述工作,该模块能够计算出特征映射之间的关系,并对OBB进行精细特征的过滤。

3、IENet

大多数的目标检测方法[45,11,19]都是利用下游图像的大小来拟合特征地图的大小,而最终的预测是通过调整输出预测的大小来构造的。尽管这是一种更自然的解决检测任务的方法,但也有一些缺点,这就是在最终预测中较大的调整误差。因此,大多数方法还预测偏移量,以减少调整大小的错误。我们发现这种调整误差在航拍图像中影响更大。因此,我们的方法基于[34],其中逐像素预测方式解决了目标检测任务。在输出特征映射中选择的回归点对应于图像坐标中的像素点。因此,通过这种方式,我们可以避免大小调整错误,这是最终的预测已经代表了图像中的点。图2演示了关于我们的单阶段检测模型的一般描述。在本节中,我们将详细展示我们提出的模型。我们首先在3.1节介绍面向目标检测包围框的表示。然后,我们在3.2节描述我们的网络架构。进一步,我们将在3.3节解释IE黑和自我注意机制。在3.4节中,我们给出了损失函数的构造,用来训练模型。最后,给出了模型推理的具体过程。

3.1、旋转框的表示

在我们的方法中,每个旋转目标都表示为[xmin, ymin,xmax, ymax, o]。表示法中[xmin, ymin,xmax, ymax]表示目标的水平边框,参数[o]表示对象边框的东方角。然而,网络在预测这种表示的目标时有困难。因此,为了让网络准确地预测目标,我们使用几何变换来重建OBB目标的表示。如图1 (b)所示,我们首先重构HBB,然后重构FCOS,FCOS使用回归点计算回归点与HBB边界之间的偏移量。故[l, t, r, b]分别表示为left, top, right, bottom。在图1 (a)中,我们将旋转角转换为[w,h]。因此,该角度被拆分为两个不同的预测任务。这样,原始OBB表示为[l, t, r, b,w,h],这样网络更容易预测。在本文中,HBB是OBB的扩展框,注意我们使用这个框进行框回归。在下一节中,我们将展示一个网络架构,该架构旨在通过预测本节描述的OBB表示来解决旋转目标检测。

3.2、网络结构

目前大多数航空影像数据集在精度和数量上都存在不足。因此,如FCOS所述,将卷积神经骨干网应用于网络体系结构,在ImageNet[9]上预训练骨干网,并在我们的目标数据集DOTA和HRSC2016中进行微调。这样,该网络能够从航拍图像中提取更精细的特征。

begin{array}{l} x=leftlfloorfrac{s}{2}rightrfloor x s, \ y=leftlfloorfrac{s}{2}rightrfloor y s end{array}

其中[x, y]为图像上的位置,[x_s, y_s]为特征上的位置。s为特征图步数。

box回归分支预测对象HBB偏移量,对特征图中的每个位置输出4D向量,表示为[l, t, r, b],也对应于一个图像位置。offset的计算方法如下:

begin{array}{ll} l=x-x_{min }, & t=y-y_{min } \ r=x_{max }-x, & b=y_{max }-y end{array}

在Textboxes 中,需要在检测模型中增加一个新的任务,通常是直接在框回归或分类分支上增加一个新的卷积层。框回归是一项预测框边界的任务。集合,而分类就是识别对象的类别。然而,这两个任务都与角度预测任务没有太大的关系,因此只能直接在分类或框回归分支上增加新的一层,决不能透视工作。因此,我们添加了一个新的分支来进一步回归二维向量[w, h],这也是表示目标方向的参数。此外,我们还使用两个卷积层分别预测[w, h]参数。我们称这个分支为方向分支,它是预测头上的第三个回归分支。我们的预测头设计如图3所示。在图3中,我们使用IE模块从其他分支中提取特征,并将它们组合到取向特征中,生成最终的特征用于取向回归。所有分支首先使用4个卷积层,输出256个特征映射。一个附加的卷积层被用来做预测。

3.3、IE Black via Self-Attention

为了提供更多的特征,提高定向预测的准确性,我们利用自注意模块构建了一个交互分支black,获取来自分类和框回归分支的特征,这些特征可以通过自注意机制进行重新排列。自我注意可以建立这些特征映射之间的关系,并决定哪个特征更适合于定向回归。这些功能将与注意地图结合,然后添加到方向分支,如图2所示。这样,方向分支既为角度预测任务保持了自身的特征,又从其他分支中获得了更有用的关联特征。如图4所示,我们仅通过三个1times 1卷积层和一个softmax层就形成了自我注意模块。然后通过f(x)、g(x)、h(x)分别使用三个不同的卷积层将特征投影到三个特征空间中。f(x)g(x)共同通过softmax功能形成注意图。注意图表示输入特征的相对性,并对h(x)进行回溯,h(x)表示原始特征图。注意图α由以下组成:

alpha=operatorname{softmax}left(f(x)^{T} g(x)right)

其中f(x)^Tg(x)输出一个N × N个特征映射s, N为输入特征映射x的个数,s中的每一行应用一个softmax函数。

alpha_{j, i}=frac{exp left(s_{i j}right)}{sum_{i=1}^{N} exp left(s_{i j}right)}

那么注意层的输出为o =(o_1, o_2,…, o_j)N表示输入和输出特征映射的数量。

o_{j}=sum_{i=1}^{N} alpha_{j, i} hleft(x_{i}right)

注意层的输出乘以尺度参数γ并返回输入特征映射,因此自我注意模块的输出为:

y_{i}=gamma o_{i} x_{i}

3.4、损失函数

在损失中L_{reg}是由:

begin{aligned} L_{text {reg }}=& B C Eleft(P_{text {centerness }}, G_{text {centerness }}right) \ & S m o o t h_{L 1}left(P_{l t r b}, G_{l t r b}right) \ & left(1-operatorname{IOU}left(left(P_{l t r b}, G_{l t r b}right)right)right. end{aligned}

在回归损失中,中心度损失按照[34]构造。中心度损失的目的是鼓励网络选择一个接近目标中心点的回归点。此外,中心度也会影响预测对象的置信度。Pltrb、Gltrb表示预测,ground truth HBB。对负债的预测来自回归分支,并进一步利用借据计算负债之间的借据损失。Lori由:

begin{aligned} L_{o r i} &=operatorname{Smooth}_{L 1}left(P_{w h}, G_{w h}right) \ & left(1-operatorname{IOU}left(P_{w h}, G_{w h}, P_{l t r b}, G_{l t r b}right)right) end{aligned}

Pwh、Gwh分别为取向支和地真值参数的预测。与公式8一样,我们也使用Smooth-L1损耗和IOU损耗。此外,我们采用OBB方法计算借据损失。因此,参数[l, t, r, b]和[w, h]共同将HBB转化为OBB。计算OBB借据在训练过程中过于计算,我们为OBB形成不同版本的借据,即内框,计算方式为:

begin{array}{ll} l_{n}=|l-w|, & t_{n}=|t-h|, \ r_{n}=|r-w|, & b_{n}=|b-h| end{array}

其中[ln, tn, rn, bn]捐赠了内盒偏移量。在吗?因此,我们有了基础真相并预测了内盒偏移量。此外,OBB上的一个简单版本的借据可以使用偏移量来计算。

3.5、推断

在本节中,我们将解释模型中的推理。给定一幅输入图像,骨干网生成Ns特征图,最后三层输出作为FPN的输入。FPN融合了三个特征图。预测头包含三个分支,每个分支分别用于完成不同的任务,分类分支用于分类任务,框回归分支用于边框预测任务,方向分支用于预测方向参数任务。预测头是三个特征图的共享量。每个分支产生预测地图大小一样产生的特征图谱骨干网络,因此在每个位置预测地图Px, y可以将方程1的位置在图像,为每一个位置我们选择那些分类信心高于0.5作为一个明确的预测。然而,我们用中心度预测来乘猫?因此我们将阈值设置为0.05。最后,模型预测一个四维向量[l, t, r, b]和一个二维向量[w, h],然后将这些参数转换为OBB,参考3.1节。

4、实验

我们在挑战数据集DOTA和HRSC2016上评估了我们提出的IENet。这两个数据集都包含大量以任意方向表示的对象。数据集描述如下:

  • 数据集包含2806高分辨率im?年龄有15个类别。DOTA图像包含188 282个实例,数据集中的实例在比例、方向和宽高比上差异很大。
  • 数据集包含1061幅图像,29个类别。HRSC2016中的图像大小各不相同。图片大小为300 × 300 ~ 500 × 500。

以上数据集采用类别平均精度(AP)作为检测器性能表征的测量值。如图4.1所示为感兴趣的部分IENet的选择结果。

4.1、训练细节

在本工作中,为了提高存储效率,所有来自数据集的图像都被裁剪到1024×1024像素,为了增强数据,我们按比例(1.0,0.5)调整图像的大小,我们也从(0,90,180,270)应用随机翻转和随机旋转,以避免不平衡。在数据集的类别之间。这些设置同时用于训练和测试。

网络设置:所有结果都使用ResNet-101作为骨干网。设批大小为16,初始化学习率为0.01,使用随机梯度下降(SGD)迭代100K,设权重衰减和动量分别为0.0001和0.9。在最后的20K训练步骤(80k-100K)结束时,学习率降低了10倍。

4.2、和SOTA的比较

一种基于FCOS的单级定向探测器基线方法,其灵感来自于目前最先进的单级探测器[34]。我们修改了网络末端的回归头,使FCOS可以直接回归通过在回归分支中增加卷积层来预测的方向参数h和w,因此可以用于OBB检测。我们还将我们的方法与两种公布的性能最好的两级方向检测器,RoI变压器[10]和更快的R-CNN OBB检测器[37]进行了比较。使用DOTA和HRSC2016数据集的比较分别如表1和表2所示。结果表明,我们的方法优于在DOTA和HRSC2016数据集上分别用9.75%和6.45%的地图测量方法进行直线法。与两级检波器相比,我们提出的IENet比FR-O方法高出3.01%。虽然IENet的性能很难超过RoI变压器检测器[10],但对于网络参数较少、计算复杂度较低的15类DOTA数据集中的5类,IENet的性能仍然较好。为了评估IENet的效率,我们在8个GTX 1080Ti (12GB) gpu上训练网络,精度和速度之间的权衡如表3所示。从表3的比较可以看出,与无锚的一级检测器相比,IENet在保持低复杂度和小模型的同时,精度有了很大的提高。与两级检波器相比,虽然IENet在精度上并不总是占主导地位,但它具有效率高、模型轻量化等优点。

4.3、IENet消融研究

我们实验了我们的方法的贡献,即几何变换和IE模块,并研究了DCN[8]对我们的模型的影响。FCOS用于预测OBB,直接回归OBB的未变质包围框和一个角度参数。

几何变换。我们用DCN训练FCOS,直接回归预测5个参数的OBB。我们的模型将角度分为两个参数[w, h],我们有六个参数来预测。在表4的第二和第三项中,即使没有我们的DCN,我们的几何变换仍然比FCOS高出6.99%。

分支模块进行交互。在表4第3和第4项中,我们展示了我们的IEmodule通过DCN帮助模型增加了2.6%的溃疡。然而,在表4第4和第5项中,DCN在地图上只有轻微的改善,增加了0.16%。我们相信结果表明我们的IE模块已经提取出适合最终预测的特征。因此,无论有无DCN,我们的模型与我们的几何变换和IE模块得到的结果都几乎相等。我们的方法使用了一种全新的方法来预测OBB,即OBB上的几何变换将角度分割成两个分割参数。因此,在不优化超参数的情况下,与最先进的RoI转换器相比,我们的性能可以获得更好的结果。我们相信,通过适当的优化,我们的网络可以获得世界上最先进的高数值地图。

5、结论

提出了一种可用于预测OBB的无锚式单级定向检测器IENet。IENet是一种面向目标的网络。航空图像检测。采用了一种基于一级无锚点的结构,并在几何变换的基础上提出了一种新的旋转预测方法。利用基于自注意机制的IE模块作为特征交互模块,结合特征进行方向预测。比较结果表明,我们提出的IENet的准确性有所提高,这是由于交互行为;与目前最先进的定向检测器相比,IENet被证明具有更高的计算效率,而我们的几何变换和IE模块的效率被证明具有较高的性能;在未来的工作中,我们寻求除自我之外的另一种特征互动方法在哪里?锁定机制,以提取宏伟的特征,OBB,并实现最先进的结果,与探测器。

0 人点赞