目标检测中的Anchor-free回顾

2020-12-11 11:30:32 浏览数 (1)

Anchor-free 的检测算法可分为anchor-point的算法和key-point的算法。Anchor-point 检测器通过预测目标中心点,边框距中心点的距离或目标宽高来检测目标,本质上和anchor-based算法相似,此类算法有FCOS,CenterNet等;而key-point方法是通过检测目标的边界点(如:角点),再将边界点组合成目标的检测框,典型的此类算法包括CornerNet, RepPoints等。

1 FCOS

论文链接:https://arxiv.org/abs/1904.01355

代码链接:https://github.com/tianzhi0549/FCOS/

FCOS是ICCV2019的一篇文章,其主干网络和RetinaNet的差不多,只是在分类分支上多了一个centerness 分支,用于确定当前点是否是检测目标的中心。因为是anchor-free的方法,最后分类分支和回归分支输出feature map 的 channel 也分别是 C(类别数) 和 4(l,t,r,b),不需要乘以anchor数(K),因此相比anchor based的输出,FCOS的输出可用减少K倍。

1.1 边界框的表示形式

一般目标检测的边界框使用(x,y,x,y) 和 (x,y,w,h) 之类的坐标表示,但FCOS是不同的,FCOS是从一个点开始,然后使用该点与ground truth之间的垂直和水平距离(l,t,r,b)来表示边界框的。通过用点标记,FCOS可以获取更多正样本样本以改善正负样本不平衡状况。具体如下图所示:

1.2 正负样本分配

Step1:分配目标给哪一层预测。引入了min_size和max_size,具体设置是0, 64, 128, 256, 512和无穷大。例如,对于输出的第一个预测层而言,其stride=8,负责最小尺度的物体,对于该层上面的任何一个点,如果有gt bbox映射到特征图上,满足0 < max(中心点到4条边的距离) < 64,那么该gt bbox就属于第1层负责,其余层也是采用类似原则。总结来说就是第1层负责预测尺度在0~64范围内的gt,第2层负责预测尺度在64~128范围内的gt,以此类推。通过该分配策略就可以将不同大小的gt分配到最合适的预测层进行学习。

Step2:确定正负样本区域。通过center_sample_radius参数,确定在半径范围内的样本都属于正样本区域,其余区域作为负样本。默认配置center_sample_radius=1.5。例如,第1层的stride=8,那么在该输出层上,对于任何一个gt,基于gt bbox中心点为起点,在半径为1.5*8=12个像素范围内点都属于正样本区域。

Step3:centerness找到目标的中心点。使得离目标中心越近,输出值越大,反之越小。Center-ness的定义如下公式:

可见最中心的点的centerness为1,距离越远的点,centerness的值越小。在推测的时候直接将中心度分数centerness乘到分类分数上,将偏离很远的检测框分值进行惩罚。

1.3 损失函数

网络的输出依然包括分类和检测分支,具体损失函数公式如下:

(1)分类任务

分类任务通过卷积输出是80维的向量,代表的是80个类别,并采用的是focal loss损失函数。

(2)检测任务

检测任务输出的4维的向量,分别对应点到上下左右边的距离(l, t, r, b),并采用IOU loss。

(3)Center-ness loss

由于中心度的大小在0–1之间,因此在训练的时候使用BCE loss将其加入到训练中。

1.4 小节

FCOS是从一个点开始,然后使用该点与ground truth之间的垂直和水平距离(l,t,r,b)来表示边界框的,并通过引入层、区域、中心确定正负样本的分配。


2 CenterNet

论文链接:https://arxiv.org/pdf/1904.07850.pdf

代码链接:https://github.com/xingyizhou/CenterNet

其实有两篇 CenterNet,分别是Objects as Points这一篇与Keypoint Triplets for Object Detection这一篇。数据上后者优于前者,方法也是后者比较复杂。本文介绍的是Objects as Points这一篇,Objects as Points和FCOS有些相似,但更为简洁流畅,是我很最喜欢的方法。

CenterNet的Head层默认是输出80个类、2个预测的中心点坐标、2个中心点的偏移量。如下官方源码:

代码语言:javascript复制
(hm): Sequential((0): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))(1): ReLU(inplace)(2): Conv2d(64, 80, kernel_size=(1, 1), stride=(1, 1)))(wh): Sequential((0): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))(1): ReLU(inplace)(2): Conv2d(64, 2, kernel_size=(1, 1), stride=(1, 1)))(reg): Sequential((0): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))(1): ReLU(inplace)(2): Conv2d(64, 2, kernel_size=(1, 1), stride=(1, 1)))

其中,hm为heatmap、wh为对应中心点的width和height、reg为中心点的offset,特征图的大小分别为 :

2.1 边界框的表示形式

如上图所示,CenterNet采用中心点和宽高来表示一个物体。和FCOS很相似,最大区别在于CenterNet使用的是中心点。

2.2 正负样本分配

与FCOS不同的是,CenterNet引入高斯热图确定正负样本。令中心点为 p,其计算方式为,对于经过网络下采样后的坐标,设为(R 为输出对应原图的步长,本文中R为4),然后将GT坐标通过高斯核分布到热图上,高斯核的计算公式如下:

其中,sigma 是一个与目标大小(也就是w和h)相关的标准差,而c 是在类别数目,如在COCO数据集上,c 的值为80,代表当前有80个类别。

生成的高斯热图如下所示,绿色框是GT,白色的椭圆是高斯核。

因此,对于Yxyc=1,表示在当前中心点 (x, y)位置的物体类别是 c ,Yxyc=0 则表示当前这个坐标点不存在类别为 c 的物体,而 Yxyc=(0,1) 的坐标点是困难样本。

  • 那么为什么学习高斯热图,而不是0-1图?

在目标检测中,中心点附近的点其实都非常相似,如果直接将这些点标为负样本,会给网络的训练带来困扰;如果将其用高斯函数做一个“软化”,网络就会更好收敛。高斯热图能够给网络训练增加一个方向性的引导,距离目标点越近,权重就越大,这一点和FCOS的centerness的作用基本一致。

因此,CenterNet中正样本就是高斯核的中心点,高斯核中心附近的点是困难样本,不在高斯核内的都就是负样本。至于困难样本是正样本还是负样本,我认为很难界定。

2.3 分类任务

目标函数如下,使用的是像素级的Focal Loss来处理样本不平衡的问题:

其中,alpha和beta是Focal Loss的超参数,实验中分别设为2和4,N是图像中物体的个数,除以N主要为了将所有Focal Loss归一化。

2.4 offset回归

Offset回归和ROIAlign的出发点是相似的,图像下采样的时候,ground truth会因数据的取整而产生偏差,因此,需要对每个中心点预测偏移量,所有类别共享这个偏移预测分支,这个偏移用L1 Loss来训练:

2.5 wh回归

假设图像上的第k个物体的类别为c,它的包围框为(x1,y1,x2,y2),中心点为pk,对于这个物体,预测一个尺寸sk=(x2-x1,y2-y1),那么L1损失函数可以表示为:

因此,整个网络的损失函数由中心点loss、offset loss和wh loss的组成,并使用不同的权重参数。

2.5 小节

CenterNet可以看作是FCOS的进阶,确定了center和构造高斯热图的重要性。


3 RepPoints

论文链接:https://arxiv.org/abs/1904.11490

代码链接:https://github.com/microsoft/RepPoints

RepPoints是ICCV2019的一篇文章,提出了一种使用representative points表示图像中的目标的方法,相比于CenterNet(Objects as Points)这篇文章,虽然都是用points表示目标,但其实原理大相径庭。

RepPoints 思路很简单。给定靠近物体中心的源点(如下图,以红色标记点),将一个 3x3 的卷积应用于这个点的图像特征上,回归出多个目标点和中心源点的偏移值,这些目标点共同构成代表性点集(RepPoints)。

RPDet采用FPN结构,如下图展示了其中一个尺度。具体来说,RPDet其实有两个阶段:

  • 第一阶段,将feature map上的点作为初始点(图中的绿色点),预测9个offset (Δx,Δy)参数(图中的蓝色点);
  • 第二阶段,在这9个点的基础上进行refine,通过conv预测相对于第一阶段(Δx,Δy)的offset,得到最终的RepPoints。

3.1 目标表示

如下左图表示一般目标检测算法使用边界框来表示目标位置信息,如SSD,FCOS等等,而右图则表示了RepPoints使用representative points的方法来表示目标位置。这种新的表示方法称为代表性点集(RepPoints),优势是能适应物体姿态或形状的变化,从而提供了一个对物体更加细致的几何描述,同时这些点也能用于提取对识别有用的图像特征。

RepPoints是如何表示object的呢?

对于一个object,本文用点集表示其空间位置:论文中,默认 k=9,然后利用9个点生成的pseudo box(虚拟框)。文中给出了三种不同的生成方式,分别是:

  • Min-max function:在RepPoints上执行两个轴上的Min-max操作以确定pseudo box,等效于所有采样点上的边界框值;
  • Partial min-max function:在两个轴上分别对样本点的子集进行最小-最大运算,以获得pseudo box;
  • Moment-based function:使用RepPoints的平均值和标准偏差用于pseudo box的中心点和比例计算。

3.2 正负样本分配

第一阶段的正样本分配原则为:(1)计算每一层的feature map bin:

其中,是GT框的宽高。

(2)目标的GT中心落在对应的feature map bin的都是正样本;

第二阶段的正样本分配原则:将 GT 和 第一阶段产生的伪框的IoU大于0.5的认为是正样本,小于0.4为负样本,在此之间的忽略不计。

3.3 分类任务

使用Focalloss处理样本不平衡的问题。

3.4 回归任务

第一阶段和第二阶段都是先将respoint转换为伪框(pseudo box),然后计算伪框的左上角和右下角和GT的point损失,损失函数是SmoothL1Loss。

3.5 小节

RepPoints是key-point类的检测器,不过可以看作是CenterNet的进阶。因为如果RepPoints如果只预测两个点,那么就等价于预测左上和右下角了,这样又有了centernet的影子。具体细节上差异其实真的不少,毕竟 RepPoints 使用了点集表示目标物体,和使用边界框从出发点来看是不一样的。


4 总结

事实上,anchor free的方法有很多,而且不像anchor方法那样整洁,本文也仅整理了一小部分内容。但无论是anchor还是anchor free,检测任务无非就是这样的思路:

(1)表示:如何表示图像上的物体,如bbox,conner,center,reppoints等;

(2)分配:如何分配正负样本:IOU、高斯热图、centerness等;

(3)分类:分类任务计算物体类别损失,解决样本不平衡的问题;

(4)回归:回归任务计算物体尺度、offset等等,以进行一些修正。

Anchor free可以看做是检测算法的进阶资料,因为anchor引入了先验框这种很强的假定,而anchor free则发散到了这套检测思路的本质,如何表示?如何分配?如何计算loss?尽管anchor free的方法很杂,但都是在围绕这几个问题展开。有些人认为FCOS和CenterNet等是single anchor,因为使用a point进行预测,这种说法也是有道理的,不过我认为没有必要care这些。

这篇文章先到这里,如果要评价anchor和anchor-free到底孰优孰劣,真的很不容易,数据和算法也往往都是成对的。

检测的话题还真的不少,下一篇,计划讨论label assign和disalignment。如果您有感兴趣的话题,可以在讨论区中发布,或许就是我们接下来的写作方向。 yw

本文仅做学术分享,如有侵权,请联系删文。

0 人点赞