Dynamic Anchor Learning for Arbitrary-Oriented Object Detection

1、摘要

任意方向的目标广泛出现在自然场景、航拍照片、遥感图像等，任意方向的目标检测受到了广泛的关注。目前许多旋转检测器使用大量不同方向的锚点来实现与ground truth框的空间对齐。然后应用交叉-联合(IoU)方法对正面和负面的候选样本进行训练。但是我们观察到，选择的正锚点回归后并不能总是保证准确的检测，而一些阴性样本可以实现准确的定位。这说明通过IoU对锚的质量进行评估是不恰当的，进而导致分类置信度与定位精度不一致。本文提出了一种动态锚学习(DAL)方法，利用新定义的匹配度综合评价锚的定位潜力，进行更有效的标签分配过程。这样，检测器可以动态选择高质量的锚点，实现对目标的准确检测，缓解分类与回归的分歧。在新引入的DAL中，我们只需要少量的水平锚点就可以实现对任意方向目标的优越检测性能。在三个遥感数据集HRSC2016、DOTA、UCAS-AOD以及一个场景文本数据集ICDAR 2015上的实验结果表明，与基线模型相比，我们的方法取得了实质性的改进。此外，我们的方法对于使用水平边界盒的目标检测也是通用的。

代码：https://github.com/ming71/DAL

2、简介

目标检测是计算机视觉中最基本、最具挑战性的问题之一。近年来，随着深度卷积神经网络(CNN)的发展，在目标检测方面取得了巨大的成功。大多数检测框架利用预设的水平锚来实现与groundtruth(GT) box的空间对齐。然后在训练阶段通过一种特定的策略来选择正样本和负样本，这被称为标签分配。

由于真实场景中的物体往往以不同的方向出现，面向方向的检测问题逐渐受到了广泛的关注。有很多方法通过引入额外的方向预测和预设的旋转锚点来实现方向目标的检测。这些检测器通常遵循与一般目标检测框架相同的标签分配策略。为简便起见，我们称GT框与锚框之间的借据为输入借据，称GT框与回归框之间的借据为输出借据。被选择的正数相对于负数更容易获得更高的输出IoU，因为它们与GT更好的空间对齐提供了足够的语义知识，有利于准确的分类和回归。

然而，我们观察到指定样本的定位性能与上述假设并不一致。如图1所示，正锚和负锚的划分似乎并不总是与检测性能相关。此外，我们统计了所有候选锚定位性能的分布，以探索这一现象是否普遍。如图2(a)所示，相当比例(26%)的阳性锚点回归后与GT对齐不良，说明阳性锚点不能保证准确定位。此外，达到高质量预测的候选目标中，有一半以上是从消极因素回归出来的(见图2(b))，这意味着大量具有高本地化潜力的消极因素没有得到有效利用。总之，我们的结论是定位性能并不完全依赖于锚和GT之间的空间对齐。

为了解决这些问题，我们提出了一种动态锚学习(DAL)方法来更好地分配标签，进一步提高检测性能。首先，设计了一种简单有效的标准命名匹配度来评估锚点的定位潜力，综合考虑了空间对齐的先验信息、定位能力和回归不确定性。然后，我们采用匹配度进行训练样本的选择，这有助于消除假阳性样本，动态挖掘潜在的高质量候选样本，并抑制回归不确定性带来的干扰。接下来，我们提出了一个匹配敏感损失函数，进一步缓解分类与回归之间的不一致性，使分类器对具有较高定位性能的建议更具判别性，最终实现高质量的检测。在公共数据集，包括遥感数据集HRSC2016、DOTA、UCAS-AOD和场景文本数据集ICDAR 2015上的大量实验表明，我们的方法可以实现稳定和实质性的改进，以实现面向任意对象的检测。与我们的方法集成，即使是普通的一级探测器可以在几个数据集上与最先进的方法竞争。此外，在ICDAR 2013和NWPU VHR-10上的实验也证明了我们的方法对于水平盒目标检测也是通用的。该方法通用性强，易于集成到现有的目标检测流水线中，且不增加推理的计算量。

我们的贡献总结如下:

我们观察到基于IoU的标签分配在锚点和GT箱之间导致定位能力的次优评估，并进一步带来不一致的分类和回归性能。
引入匹配度来衡量锚的定位潜力。为了实现高质量的检测，提出了一种基于该指标的标签分配方法。
提出了匹配敏感损失，缓解了分类与回归之间的弱相关性问题，提高了高质量建议的识别能力。

2、相关工作

2.1、任意方向目标检测

目前主流检测器可分为两类:两级检测器和一级检测器。现有的旋转检测器大多建立在使用水平边界框表示的检测器上。文献中采用预设的旋转锚和附加角度预测对旋转物体进行定位。然而，由于方向的变化，这些检测器不得不预设大量的旋转锚，使其与GT box空间对齐。还有一些方法只使用水平锚来检测方向性目标。例如，RoI Transformer使用水平锚点，但通过空间变换学习旋转的RoI，减少了预定义锚点的数量。R3Det采用级联回归和细化的box重编码模块，水平锚实现了最先进的性能。上述方法虽然取得了良好的效果，但不能对锚的质量做出正确的判断，从而导致标签分配不当，给训练过程带来不利影响。

2.2、标签分配

大多数基于锚点的检测器都在特征图的每个位置密集地预设锚点。大量的预设锚点会导致严重的不平衡问题，特别是对于具有附加角度设置的任意方向的物体。最常见的解决方案是通过特定的抽样策略来控制候选人数的比例。此外，Focal Loss降低了简单样本的权重，以避免其对损失的压倒性贡献。该工作进一步将极难样本视为异常值，并使用梯度协调机制来克服不平衡问题。我们证明了异常值的存在是普遍的，并且我们的方法可以防止这些噪声样本被错误地分配。一些研究已经观察到使用输入欠条作为标签分配的标准所造成的问题。动态R-CNN 和ATSS 自动调整借据阈值，选择高质量的正样本，但他们没有考虑借据本身是否可信。该研究指出，分配给锚的二进制标签是有噪声的，并为每个锚构建清洁度评分，以监督培训过程。然而，它只考虑了阳性样本的噪声，忽略了大量阴性样本潜在的强大的定位能力。HAMBox发现，不匹配的锚也可以实现准确的预测，并试图利用这些样本。然而，其根据输出欠条开采的补偿锚并不可靠;此外，它不考虑匹配阳性的退化。FreeAnchor将目标-锚匹配定义为一种最大似然估计程序，以选择最具代表性的锚，但其定义相对复杂。

3、我们的方法

3.1、旋转的RetinaNet

在许多情况下，实时推理对于面向任意目标的检测是必不可少的。因此，我们使用单级检测器RetinaNet作为基线模型。它利用ResNet-50作为骨干，采用类似FPN的结构构造多尺度特征金字塔。预定义的水平锚定设置在每个级别P3、P4、P5、P6、P7的特性上。请注意，这里没有使用旋转锚，因为它是低效和不必要的，我们将在下一节中进一步证明这一点。由于引入了额外的角度参数，有向框以(x;y;w;h;θ)。对于边界框回归，我们有：

begin{aligned} t_{x} &=left(x-x_{a}right) / w_{a}, & t_{y} &=left(y-y_{a}right) / h_{a} \ t_{w} &=log left(w / w_{a}right), & t_{h} &=log left(h / h_{a}right) \ t_{theta} &=tan left(theta-theta_{a}right) & & end{aligned}

L=L_{c l s}left(p, p^{*}right) L_{r e g}left(boldsymbol{t}, boldsymbol{t}^{*}right)

其中，p和t分别表示预测的分类得分和预测的盒偏移量。变量p∗表示锚的类标签(p∗= 1表示阳性样本，p∗= 0表示阴性样本)。

3.2、动态锚选择

部分研究曾报道，目标定位所需的判别特征在GT上并不是均匀分布的，特别是对于具有多种方向和纵横比的目标。因此，基于空间对齐的标签分配策略，即输入IoU，导致无法捕获目标检测所需的关键特征。一种直观的方法是利用回归结果的反馈，即输出的IoU来表示特征对齐能力，动态地指导训练过程。特别地，我们尝试根据输出的借据选择训练样本，并将其作为软标签进行分类。但是，我们发现模型很难收敛，原因有两个：

高输入欠条低输出欠条的锚点并不总是负样本，这可能是由于训练不足造成的。
不匹配的低质量锚，偶然获得准确的定位性能，容易被误判为阳性样本。

以上分析表明，回归不确定性会影响特征对齐输出欠条的可信度。回归不确定性在之前的许多工作中被广泛讨论，表示回归过程中的不稳定性和不相关性。我们在实验中发现，它也误导了标签分配。高质量的样本无法得到有效利用，所选的假阳性样本会导致训练不稳定。遗憾的是，用于标签分配的输入借据和输出借据都不能避免回归不确定性带来的干扰。基于以上观察，我们引入匹配度(matching degree, MD)的概念，利用空间匹配、特征对齐能力和锚点回归不确定性的先验信息来衡量定位能力，定义如下:

m d=alpha cdot s a (1-alpha) cdot f a-u^{gamma}

其中sa表示空间对齐的先验，其值等价于输入IoU。fa表示通过IoU计算GT盒与回归盒之间的特征对齐能力。α和γ是用来衡量不同项目的影响的超参数。u是惩罚项，表示训练过程中的回归不确定性。由回归前后的IoU变化得到：

u=|s a-f a|

抑制回归过程中的干扰对高质量的锚点采样和稳定的训练至关重要。IoU回归前后的变化表示锚点评估错误的概率。注意，我们对回归不确定性惩罚项的构造非常简单，由于检测性能对u的形式不敏感，所以我们采用了朴素、直观但有效的形式。根据新定义的匹配度，对优标签进行动态锚点选择。在训练阶段，我们首先计算GT box与锚的匹配度，然后选择匹配度高于一定阈值(我们的实验设置为0.6)的锚为阳性，其余为阴性。之后，对于不匹配任何锚的GT，匹配度最高的锚将被补偿为正候选锚。为了实现更稳定的培训，我们在培训过程中逐步调整输入IoU的影响。具体调整时间表如下：

alpha(t)=left{begin{array}{ll} 1, & t<0.1 \ 5left(alpha_{0}-1right) cdot t 1.5-0.5 cdot alpha_{0}, & 0.1 leq t<0.3 \ alpha_{0}, & t geq 0.3 end{array}right.

3.3、匹配敏感损失

为了进一步增强分类与回归之间的相关性，实现高质量的任意导向检测，我们将匹配度融入训练过程，提出了匹配敏感损失函数(matching-sensitive loss function, MSL)。分类损失定义为：

L_{c l s}=frac{1}{N} sum_{i in psi} F Lleft(p_{i}, p_{i}^{*}right) frac{1}{N_{p}} sum_{j in psi_{p}} w_{j} cdot F Lleft(p_{j}, p_{j}^{*}right)

Delta m d=1-m d_{max }

然后将各正数的匹配度∆md相加，形成匹配补偿因子：

boldsymbol{w}=boldsymbol{m} boldsymbol{d}_{text {pos }} Delta m d

该检测器利用精心设计的匹配补偿因子，对不同定位能力的阳性样本进行了不同的处理。特别地，对于具有高定位潜力的候选对象，我们将更加关注。因此，通过分类评分可以进行高质量的预测，有助于缓解分类与回归的不一致性。由于匹配度衡量的是锚的定位能力，因此可以进一步利用匹配度来促进高质量的定位。我们将匹配敏感的回归损失公式表示为：

L_{r e g}=frac{1}{N_{p}} sum_{j in psi_{p}} w_{j} cdot L_{s m o o t h_{L_{1}}}left(boldsymbol{t}_{boldsymbol{j}}, boldsymbol{t}_{boldsymbol{j}}^{*}right)

其中LsmoothL1表示回归时的smooth-L1损失。将匹配补偿因子w嵌入回归损失中，避免高质量阳性的损失贡献淹没在与GT盒空间对齐差的样本的主导损失中。从图3(a)可以看出，分类得分与回归框定位能力之间的相关性不够强，导致分类置信度选择的预测结果有时不可靠。经过匹配敏感损失训练后，如图3(b)所示，分类得分越高，输出借据所代表的定位性能越好，验证了本文方法的有效性。

4、实验

4.1、数据集

我们在遥感数据集HRSC2016、DOTA、UCAS-AOD和场景文本数据集ICDAR 2015上进行了实验。图像中的ground-truth框都是有方向的边界框。HRSC2016 是一个具有挑战性的遥感船舶检测数据集，包含1061张图片。整个数据集分为训练集、验证集和测试集，分别包含436幅、541幅和444幅图像。DOTA是最大的面向包围框标注的遥感图像目标检测公共数据集。它包含2806个航拍图像和188,282个注释实例，总共有15个类别。请注意，DOTA中的图像太大了，我们将图像裁剪到800×800补丁中，stride设置为200。UCAS-AOD 是一个航空飞行器和汽车检测数据集，包含1510幅图像。我们随机分为训练集、验证集和测试集，分别为5:2:3。ICDAR 2015数据集用于ICDAR鲁棒文本检测挑战的附带场景文本挑战4。它包含1500幅图像，包括1000幅训练图像和500幅测试图像。

4.2、实现细节

对于实验，我们按照上面所述在RetinaNet上构建基线。HRSC2016、DOTA、UCAS-AOD只设置三个水平锚，纵横比分别为f1/2、1,2、2g。对于ICDAR，只有5个水平锚设置长宽比f1/ 5,1 / 2,1, 2, 5g。所有图像的大小调整到800×800。我们使用随机翻转、旋转和HSV颜色空间变换来增强数据。用于训练的优化器是Adam。初始学习速率设置为1e-4，每一个衰减步除以10。HRSC2016、DOTA、UCAS-AOD、ICDAR 2015的迭代次数分别为20k、30k、15k、40k。我们在RTX 2080Ti上训练模型，batch size设置为8。

4.3、消融实验

4.3.1、评估不同的组件

我们在HRSC2016上进行了组件实验来验证所提方法的贡献。实验结果见表1。对于具有输出IoU的变量，α设为0.8以稳定训练，检测性能仍然从80.8%下降到78.9%。它表明输出IoU对于标签分配并不总是可信的。通过抑制回归不确定性，先验空间对齐和后验特征对齐能够有效地协同进行标签分配，性能比基线显著提高了4.8%。此外，采用匹配灵敏度损失函数的模型mAP达到88.6%，高精度检测比例显著提高。例如，AP75比带有不确定性抑制的变量高9.9%，这说明匹配度引导丢失有效地区分了具有差异定位能力的锚点，并且更加注重匹配度高的锚点，以提高高质量的检测结果。

4.3.2、超参数

为了寻找合适的超参数设置，探讨参数之间的关系，我们进行了参数敏感性实验，结果如表2所示。在存在不确定性抑制项的情况下，随着α值的适当降低，特征对齐的影响增大，mAP值增大。这表明输出IoU所代表的特征对齐有利于选择具有较高定位能力的锚点。然而，当α非常大时，性能急剧下降。究其原因，可能是当输出的借据难以提供反馈信息时，大多数潜在的高质量样本被不确定性惩罚项所抑制。在这种情况下，减弱不确定性抑制能力，即增加γ有助于缓解这一问题，使锚的选择更加稳定。

4.2、实验结果

4.2.1、和别的采样方法的比较

实验结果见表3。基线模型根据输入的借据进行标签分配。ATSS在水平盒目标检测方面取得了很大的成功。当应用到旋转物体检测时，仍然有很大的改进，比基准模型提高了5.3%。对于HAMBox，由于根据输出IoU挖掘的样本很可能是低质量的样本，挖掘样本过多可能导致网络无法发散，我们只对锚不匹配的GT补偿一个锚。比基线高出4.6%。与基线模型相比，本文提出的DAL方法显著提高了7.8%。与目前比较流行的ATSS方法相比，我们的方法考虑了回归框的定位性能，因此所选样本具有更强的定位能力，效果比回归框方法高出2.5%，验证了我们方法的有效性。

4.2.2、在DOTA上的实验结果

我们将所提出的方法与其他最先进的方法进行比较。如表4所示，我们得到了71.44%的mAP，比基线模型高出3%。即使是与DAL相结合的vanilla RetinaNet也可以与许多先进的方法竞争。此外，我们还将我们的方法嵌入到其他模型中，以验证其通用性。S2A-Net是一种先进的旋转检测器，在DOTA数据集上实现了最先进的性能。可以看出，我们的方法性能进一步提高了2.83%，mAP达到76.95%，在所有比较模型中取得了最好的结果。图4显示了部分DOTA检测结果

4.2.3、HRSC2016的结果

HRSC2016包含了大量具有大长宽比和任意方向的旋转船舶。我们的方法在HRSC2016上达到了最先进的性能，如表5所示。以ResNet-101为骨干，将输入图像大小调整到800×800，我们的方法达到了89.77%的最高mAP。即使我们使用更轻的骨干ResNet50和更小的输入比额416×416，我们仍然可以达到88.6%的mAP，这可以与目前许多先进的方法相媲美。值得一提的是，我们的方法在每个位置仅使用三个水平锚，但优于使用大量锚的框架。这说明有效利用预定义的锚点，选择高质量的样本是至关重要的，不需要预设大量旋转的锚点。此外，我们的模型为一级检测器，使用的feature map为P3−P7。与两级检测器的P2−P6相比，需要锚定的位置总数更少，因此推断速度更快。输入图像大小调整为416×416，我们的模型在RTX 2080 Ti GPU上达到34fps。

4.2.4、UCAS_AOD上的结果

表6的实验结果表明，我们的模型比基线进一步提高了2.3%。其中，对小型车辆的检测性能得到了显著的提高，表明我们的方法对小型目标也具有鲁棒性。值得注意的是，DAL方法极大地改进了AP75，这表明基于匹配度的损失函数有助于更加关注高质量的样本，并有效地区分它们，从而实现高质量的目标检测。

4.2.5、ICDAR 2015的结果

为了验证我们的方法在不同场景下的通用性，我们还对场景文本检测数据集进行了实验。结果如表7所示。经过仔细的参数选择和长期训练，我们的基线模型只有77.5%的f -测度。该方法的检测性能提高了4%，f值达到81.5%。经过多尺度训练和测试，达到了82.4%，相当于许多精心设计的文本检测器的性能。然而，ICDAR 2015数据集中存在大量的长文本，经常被误检测为几条短文本。DAL是为一般旋转检测而设计的，并没有特别考虑这种情况，因此，朴素模型在场景文本检测方面仍然不能优于目前最先进的方法，如DB 。

4.2.6、HBB上的实验

在使用水平包围框(HBB)对对象进行定位时，标签分配仍然存在判别特征不均匀的问题。这种情况虽然没有旋转物体那么严重，但仍然存在训练不稳定的隐患。因此，我们的方法在使用HBB进行一般目标检测时也是有效的。ICDAR 2013、NWPU VHR-10 和VOC2007的实验结果见表8。可以看出，DAL在HBB目标检测方面取得了很大的改进，证明了我们方法的通用性。

5、结论

在本文中，我们提出了一种动态锚学习策略来实现高性能的面向任意对象的检测。构建匹配度，综合考虑标签分配的空间对齐、特征对齐能力和回归不确定性。然后将动态锚点选择和匹配敏感损失集成到训练管道中，提高了高精度的检测性能，缓解了分类与回归任务之间的差距。在多个数据集上的大量实验验证了该方法的有效性和通用性。

图像识别

0 人点赞