目标检测新框架：大幅度提升检测精度

作者：Edison_G

目标检测中，点特征使用方便，但可能缺乏精确定位的明确边界信息。

简述

密集物体检测器依赖于滑动窗口范式，可以在规则的图像网格上预测物体。同时，采用网格点上的特征图来生成边界框预测。点特征使用方便，但可能缺乏精确定位的明确边界信息。

在今天分享中，有研究者提出了一种简单高效的算子，称为 Border-Align，从边界的极值点提取“边界特征”以增强点特征。基于BorderAlign，研究者设计了一种称为BorderDet的新型检测架构，它明确利用边界信息进行更强的分类和更准确的定位。

背景

Sliding Window

滑窗法作为一种经典的物体检测方法，个人认为不同大小的窗口在图像上进行滑动时候，进行卷积运算后的结果与已经训练好的分类器判别存在物体的概率。选择性搜索(Selective Search)是主要运用图像分割技术来进行物体检测。

通过滑窗法流程图可以很清晰理解其主要思路：首先对输入图像进行不同窗口大小的滑窗进行从左往右、从上到下的滑动。每次滑动时候对当前窗口执行分类器(分类器是事先训练好的)。如果当前窗口得到较高的分类概率，则认为检测到了物体。对每个不同窗口大小的滑窗都进行检测后，会得到不同窗口检测到的物体标记，这些窗口大小会存在重复较高的部分，最后采用非极大值抑制(Non-Maximum Suppression, NMS)的方法进行筛选。最终，经过NMS筛选后获得检测到的物体。

新框架分析

滑动窗口目标检测器通常在密集的、规则的特征图网格上生成边界框预测。如上图所示，网格每个点上的特征一般用于预测目标的类别和位置。这种基于点的特征表示很难包含有效的边界特征，并且可能会限制目标检测器的定位能力。对于两阶段目标检测器，目标由从整个边界框中提取的区域特征来描述，如上图(b)所示。这种基于区域的特征表示能够为目标分类和定位提供比基于点的特征表示更丰富的特征。