1、摘要
对于目标检测,两阶段方法(如Faster R-CNN)的准确率最高,而单阶段方法(如SSD)的效率较高。为了在继承两种方法优点的同时克服它们的缺点,本文提出了一种新的单阶段检测器,称为RefineDet,它比两阶段方法具有更好的精度,并保持了与单阶段方法相当的效率。RefineDet由两个相互连接的模块组成,即锚点细化模块和目标检测模块。具体来说,前者的目的是(1)过滤掉负锚点,减少分类器的搜索空间,(2)粗调锚点的位置和大小,为后续回归器提供更好的初始化。后一个模块以改进后的锚为输入,进一步改进回归,预测多类标签。同时,我们设计了一个传输连接块来传输锚点细化模块中的特征,以预测目标检测模块中目标的位置、大小和类标签。多任务丢失功能使我们能够以端到端方式训练整个网络。在PASCAL VOC 2007、PASCAL VOC 2012和MS COCO上的大量实验表明,RefineDet能够以高效的方式实现最先进的检测精度。
2、简介
近年来,在深度神经网络(DNN)的框架下,目标检测取得了显著的进展。目前最先进的DNN探测器可分为两类:(1)两阶段方法和(2)单阶段方法。在两阶段方法中,首先生成一组稀疏的候选对象框,然后对它们进行分类和回归。两阶段的方法已经在几个具有挑战性的基准测试中取得了优异的成绩,包括PASCAL VOC和MS COCO。
单阶段方法通过在位置、尺度和纵横比上定期密集采样来检测目标。其主要优点是计算效率高。然而,其检测精度往往落后于两阶段方法,主要原因之一是存在类不平衡问题。
最近一些单阶段方法旨在解决类不平衡问题来改善检测精度。Kong等人使用目标前限制卷积功能映射到显著降低目标的搜索空间Lin等人通过重构标准交叉熵损失来解决类不平衡问题,将训练重点放在稀疏的一组难例上,并将分配给分类良好的例子的损失降权。Zhang等人设计了一种最大输出标记机制,以减少由于类不平衡导致的误报。
在我么看来,目前最先进的两阶段方法,比如Faster R-CNN,R-FCN和FPN,相对于单阶段方法有三个优势 (1)采用带抽样启发的两阶段结构处理类不平衡问题;(2)采用两步级联对目标盒参数进行回归;(3)使用两个阶段的特征来描述目标。在工作中,我们 设计一 种新的目标检测框架, 叫 RefineDet继承了这两种方法的优点,并克服它们的缺点。通过使用内联模块、锚精炼模块(ARM)、目标检测模块(ODM),来提升单阶段检测器的性能,如图1所示。特别地,ARM模块旨在(1)确认和减少负锚来减少搜索空间(2)调整位置和锚的尺寸为后续的回归器提供更好的定位。ODM以改进后的锚为输入,进一步改进回归,预测多类标签。如图1所示,这两个相互连接的模块模拟了两级结构,从而继承了上述三个优点,产生了准确高效的检测结果。此外,我们设计了一个传输连接块(TCB)来传输ARM中的特性,以预测ODM中对象的位置、大小和类标签。多任务丢失功能使我们能够以端到端方式训练整个网络。
在PASCAL VOC 2007, PASCAL VOC 2012和MS COCO基准上进行了大量实验后发现RefineDet精度超过了state-of-the-art的方法。特别的,使用VGG-16网络,在VOC 2007和VOC 2012上分别达到了85.8%和86.8%的mAP。同时,使用ResNet-101在MS-COCO上达到了41.8%,超过了已前发布的一阶段和两阶段检测器。此外,RefineDet具有时间效率,即,在NVIDIA Titan X GPU上运行速度分别为40.2 FPS和24.1 FPS,推断输入大小分别为320×320和512×512。
这项工作的主要贡献概括如下。(1)本文介绍了一个单阶段检测器,由两个互联方法组成,ARM和DOM。这使得性能优于两阶段方法,同时保持了单阶段方法的高效率。(2)为了保证效率,设计了TCB来转移ARM中的特征以处理更多有挑战性的问题。(3) RefineDet在通用目标检测(即,PASCAL VOC 2007,PASCAL VOC 2012, MSCOCO)达到了最佳结果。
3、相关工作
1、传统方法
传统方法:目标检测早期的方法是基于滑动窗的方法,应用手工特征和分类器在密集的图像格上寻找目标。作为最成功的的方法,VJ使用Haar特征和AdaBoost来训练一系列分类器来检测人脸,高效的达到了较高的精度。另一种流行的方法是DPM,使用多尺度变形组件的混合来代表较高变化的目标类,在PASCAL VOC上保持了很多年的第一。然而,随着深度学习时代的到来,目标检测器迅速被基于CNN的检测器取代,主要分单阶段方法和两阶段方法。
两阶段策略:两阶段方法由两部分组成,第一部分(如选择性搜索、edgebox、DeepMask、RPN)生成稀疏的候选对象建议集,第二部分使用卷积网络确定精确的对象区域和相应的类标签。值得注意的是,两阶段方法(例如,R-CNN、SPPnet、Fast R-CNN到Faster R-CNN)在几个具有挑战性的数据集(例如,PASCAL VOC 2012和MS COCO)上实现了主导性能。在此基础上,提出了架构图、训练策略、上下文推理和多层挖掘等多种有效的技术,以进一步提高系统性能。
单阶段方法:考虑到单阶段方法的高效性,近年来引起了人们的广泛关注。Sermanet et al.提出了一种基于深卷积神经网络的超专长分类、定位和检测方法,该方法经过端到端训练,从原始像素到最终类别。Redmon等人使用一个前馈卷积网络直接预测目标类和位置,称为YOLO,速度非常快。在此基础上,提出了YOLOv2在几个方面对YOLO进行改进,在所有卷积层上添加批量归一化,使用高分辨率分类器,使用带锚盒的卷积层来预测边界盒而不是全连通层等。Liu等人提出了SSD方法,将不同尺度的锚点分散到一个ConvNet内的多个层上,强制每一层集中预测一定尺度的目标。DSSD通过反卷积将附加上下文引入到SSD中,以提高精度。DSOD遵循SSD的网络结构,设计了一个高效的框架和一套从零开始学习对象检测器的原理。为了提高分类精度,一些单阶段方法通过重新设计损失函数或分类策略来解决极端的类不平衡问题。单阶段检测器虽然取得了较好的进展,但其精度仍落后于两级检波器。
4、网络结构
整体网络架构,如图1所示。与SSD类似,RefineDet是基于一个前馈卷积网络,它产生固定数量的边界框和表示这些框中存在不同类别目标的得分,然后进行非最大抑制以产生最终结果。RefineDet由两个相互连接的模块组成,ARM和ODM。ARM的目标是去除负锚点,减少分类器的搜索空间,并粗调锚点的位置和大小,为后续的回归器提供更好的初始化,ODM主要的目标是回归准确的目标位置,并基于改进的锚点预测多类标签。通过去除分类层,加入两个基本网络(即, VGG-16和ResNet-101在ImageNet上预训练)来满足我们的需求。ODM由TCBs的输出和预测层(即,卷积层的核大小为3×3),生成目标类的得分和相对于细化锚盒坐标的形状偏移量。下面解释RefineDet中的三个核心组件,即(1)传输连接块(TCB),传输连接块(TCB),将特征从ARM转换为ODM进行检测;(2)两步级联回归,准确回归目标的位置和大小;(3)负锚过滤,早期拒绝分类良好的负锚,缓解不平衡问题。
传输连接块:为了在ARM和ODM之间建立链接,我们引入TCBs来将ARM中不同层的特性转换为ODM所需的形式,以便ODM能够共享ARM中的特性。值得注意的是,在ARM中,我们只在与锚关联的功能映射上使用TCBs。TCBs的另一个功能是通过在传输的特征中添加高级特征来集成大规模上下文,从而提高检测精度。为了匹配它们之间的尺寸,我们使用反卷积操作来放大高级特征图,并以元素的方式对它们求和。然后在求和后加入卷积层,以保证检测特征的可辨别性。TCB的体系结构如图2所示。
两步级联回归:目前的单阶段方法依赖于基于不同尺度的不同特征层的一步回归来预测目标的位置和大小,这在一些具有挑战性的场景中是相当不准确的,尤其是对于小目标。为此,我们提出了一个两步级联回归策略来回归对象的位置和大小。也就是说,我们首先使用ARM来调整锚的位置和大小,以便为ODM中的回归提供更好的初始化。具体地说,我们将n个锚框与feature map上的每个定期划分的单元格关联起来。每个锚盒相对于对应单元格的初始位置是固定的。在每个feature map单元格中,我们预测相对于原始平铺锚的改进锚框的四个偏移量,以及表示这些锚框中存在前景对象的两个置信度评分。因此,我们可以在每个feature map单元格上生成n个改进的锚框。
在获得细化的锚框之后,我们将它们传递给ODM中相应的feature maps,以进一步生成目标类别和精确的目标位置和大小,如图1所示。ARM中对应的特征映射与ODM具有相同的维数。我们计算c类分数和相对于细化锚盒的四个目标的精确偏移量,为每个细化锚盒生成c 4输出,完成检测任务。这个过程类似于SSD中使用的默认框。然而,与SSD直接使用常规平铺的默认框进行检测不同,RefineDet使用两步策略,即, ARM生成细化后的锚盒,ODM将细化后的锚盒作为进一步检测的输入,使得检测结果更加准确,尤其是对于小目标。
负锚过滤:为了早期拒绝分类良好的负锚,缓解不平衡问题,设计了一种负锚过滤机制。具体来说,在训练阶段,精制锚箱,如果其负的置信度大于预设阈值θ(即。经验,θ= 0.99),我们将在培训ODM丢弃它。也就是说,我们只通过改进的硬锚盒和改进的正锚盒来训练ODM。与此同时,在推理阶段,如果分配一个精制锚箱-信心比θ,它将被丢弃在ODM检测。
5、训练和推理
数据增强:我们使用了几种数据增强策略来构造一个鲁棒模型来适应对象的变化。也就是说,我们随机扩展和裁剪原始训练图像,加上额外的测光失真和翻转来生成训练样本。
骨干网络:我们在RefineDet中使用vgg-16和ResNet-101作为骨干网络,它们是在ILSVRC cls - loc数据集上预先训练的。值得注意的是,RefineDet还可以在其他预先训练好的网络上工作,比如Inception V2、Inception ResNet和ResNeXt-101。与DeepLab-LargeFOV类似,通过子采样参数将VGG-16的fc6和fc7转换为卷积层conv fc6和conv fc7。由于conv4 3和conv5 3具有不同于其他层的特征尺度,我们使用L2归一化将conv4 3和conv5 3中的特征规范缩放到10和8,然后在反向传播过程中学习尺度。同时,为了在多个尺度上捕获高级信息和驱动对象检测,我们还在截断后的VGG-16和ResNet-101的末尾分别添加了两个额外的卷积层和一个额外的残差块。
锚设计和匹配:为了处理不同尺度的目标,我们为VGG-16和ResNet-101分别选择了4个特征层,总步幅分别为8、16、32和64像素,并结合几种不同尺度的锚进行预测。每个特征层都与一个特定的锚(即,比例尺为对应层总跨步大小的4倍和3个宽高比(即、0.5、1.0和2.0)。在[53]中,我们按照不同图层上的锚标设计,保证不同的锚标在图像上具有相同的平铺密度。同时,在训练阶段,基于jaccard重叠,确定锚点与地面真值盒之间的对应关系,并对整个网络进行端到端的训练。具体来说,我们首先将每个ground truth匹配到重叠得分最高的锚框,然后将锚框匹配到重叠值大于0.5的任何ground truth。
难负挖掘:在匹配步骤之后,大多数锚框都是负值,即使对于ODM也是如此,在ODM中,一些简单的负值锚被ARM拒绝。类似于SSD,我们使用负挖掘很难减轻极端foreground-background类不平衡,我们选择一些负面锚盒与顶部损失值负样本和正样本之间的比例低于3:1,而不是使用所有负锚或随机选择-锚在训练。
损失函数:RefineDet的损失函数由两部分组成,即ARM的损失和ODM的损失。对于ARM,我们为每个锚分配一个二进制类标签(目标或非目标),并同时返回其位置和大小,以获得改进的锚。然后,我们将负置信度小于阈值的改进锚传递给ODM,进一步预测目标类别和准确的目标位置和大小。通过这些定义,我们将损失函数定义为:
begin{array}{l} Lleft(left{p_{i}right},left{x_{i}right},left{c_{i}right},left{t_{i}right}right)=frac{1}{N_{operatorname{arm}}}left(sum_{i} L_{b}left(p_{i},left[l_{i}^{*} geq 1right]right) sum_{i}left[l_{i}^{*} geq 1right] L_{r}left(x_{i}, g_{i}^{*}right)right) \ frac{1}{N_{o d m}}left(sum_{i} L_{m}left(c_{i}, l_{i}^{*}right) sum_{i}left[l_{i}^{*} geq 1right] L_{r}left(x_{i}, g_{i}^{*}right)right) end{array}
i是一个mini-batch中锚的指数,l_{i}^{*} 是锚i 的ground truth类标签,g_{i}^{*} 是i 锚的ground truth位置和尺寸,p_i 和X_i 是锚i作为物体的预测置信度,是锚i在臂上的精确坐标。
C_i和t_i是ODM中预测的目标类和边界框的坐标。
N_{text {arm }}和N_{text {odm }} 分别是ARM和ODM中正锚点的数量。二分类损失Lb是两个类(目标和非目标)之间的交叉熵/对数损失,多类分类损失Lm是多个类之间信任的软最大损失。与Fast R-CNN相似,我们使用平滑L1损失作为回归损失Lr。Iverson指示函数left[I_{i}^{*} geq 1right] 当条件为正时输出为1(锚不是负的)否则输出为零,指示了回归损失在锚为负时不计算。注意,当N_{a r m}=0 时,设置L_{b}left(p_{i},left[I_{i}^{*} geq 1right]right)=0 和L_{r}left(x_{i}, g_{i}^{*}right)=0 ,并且如果N_{o d m}=0 ,于是我们设置L_{m}left(c_{i}, l_{i}^{*}right)=0 和L_{r}left(t_{i}, g_{i}^{*}right)=0 。
优化:如上所述,我们RefineDet方法中的主干网络(如VGG-16和ResNet-101)是在ILSVRC cl - loc数据集上进行预训练的。我们使用随机初始化额外添加的两个卷积层(即、conv6 1和conv6 2),并对额外残差块(即, res6)基于ResNet-101的RefineDet。在训练中,将缺省批大小设置为32。然后利用SGD对整个网络进行微调,SGD的动量为0.9,权值衰减为0.0005。我们将初始学习率设置为10 - 3,并对不同的数据集使用略有不同的学习率衰减策略,稍后将详细介绍。
推断:推理阶段,ARM首先滤除掉常规平的锚,其负的置信度比theta 大,然后改进剩余锚的位置和大小。之后,ODM将接管这些改进后的锚,并输出每幅图像的前400个高置信度检测结果。最后,我们对每一类图像采用jaccard重叠为0.45的非最大抑制,保留每幅图像前200个高置信度的检测结果,得到最终的检测结果。
6、实验
对PASCAL VOC 2007、PASCAL VOC 2012和MS COCO三个数据集进行了实验研究。PASCAL VOC和MS COCO数据集分别包含20和80个对象类。PASCAL VOC中的类是COCO中的类的子集。我们在Caffe中实现了RefineDet。
6.1、PASCAL VOC 2007
所有模型均在VOC 2007和VOC 2012训练集上训练,并在VOC 2007测试集上进行测试。我们将前80k迭代的学习率设置为10^{-3},后20k迭代和20k迭代的学习率分别衰减为10^{-4} 和10^{-5} 。我们在训练中使用默认batch大小32,在PASCAL VOC数据集上的所有实验,包括VOC 2007和VOC 2012,我们只使用VGG-16作为骨干网络。
我们将RefineDet与表1中最先进的检测器进行比较。低维输入(即RefineDet是第一个在如此小的输入图像下实现80%以上mAP的方法,远远优于目前几个比较先进的方法。RefineDet使用较大的输入尺寸512×512,实现了81.8%的mAP,超过了RON384、SSD513、DSSD513等所有单阶段方法。与两阶段方法相比,RefineDet512的性能优于除CoupleNet之外的大多数方法,CoupleNet基于ResNet-101,使用更大的输入大小(即,∼1000×600),而不是RefineDet512。原因是高分辨率的输入使得探测器能清楚地“看到”小物体,从而增加成功的检测。为了减少输入大小对公平比较的影响,我们使用多尺度测试策略对RefineDet进行了评估,得到了83.1% (RefineDet320 )和83.8% (RefineDet512 )的mAP,这比目前最先进的方法要好得多。
6.1.1、运行时间
我们在表1的第五列中给出了RefineDet和最优方法的推理速度。在一台装有NVIDIA Titan X、CUDA 8.0和cuDNN v6的机器上,用批量大小1来评估速度。如表1所示,我们发现RefineDet处理图像的时间分别为24.8ms (40.3 FPS)和41.5ms (24.1 FPS),输入大小分别为320×320和512×512。据我们所知,RefineDet是第一个在PASCAL VOC 2007上实现80%以上mAP检测精度的实时方法。与SSD、RON、DSSD和DSOD相比,RefineDet在功能映射上关联的锚框更少(例如,SSD512中24564个锚框相对于RefineDet512中16320个锚框)。然而,RefineDet仍然能够达到最高的精度和高效率,这主要得益于两个相互连接的模块的设计(例如,两步回归),这使得RefineDet能够适应对象不同的尺度和长宽比。同时,只有YOLO和SSD300相对于RefineDet320稍微快一些,但是它们的精确度比我们的差16.6%和2.5%。总之,RefineDet在精度和速度之间取得了最佳的平衡。
5.1.2 消融研究
负锚滤除:证明的有效性负锚过滤,我们设置了置信度阈值θ的锚是负1.0训练和测试。在这种情况下,所有改进的锚将被发送到ODM进行检测。RefineDet的其他部分保持不变。移除负锚点过滤会导致mAP下降0.5%(即, 80.0%对79.5%)。究其原因,这些分类良好的负面锚大多会在训练过程中被过滤掉,在一定程度上解决了类失衡问题。
两步迭代回归:验证的有效性两步级联回归,我们重新设计网络结构通过直接使用定期为锚,而不是精致的手臂(参见表3中第四列)。如表3所示,我们发现地图从79.5%降低到77.3%。这种急剧下降(即(2.2%)表明,两步锚级联回归显著提高了性能。
5.2. PASCAL VOC 2012
按照VOC 2012协议,我们将RefineDet检测结果提交到公共测试服务器进行评估。我们使用VOC 2007训练集和测试集以及VOC 2012训练集(21,503张图片)进行训练,并对VOC 2012测试集(10,991张图片)进行测试。我们在训练中使用默认的批大小32。同时,我们在第一个160k迭代中将学习速率设置为10^{-3} ,在另一个40k和40k迭代中将学习速率衰减为10^{-4} 和10^{-4} 。
表1显示了所提出的RefineDet算法的准确性,以及最先进的方法。在输入尺寸为320×320的fed方法中,RefineDet320获得了前78.1%的mAP,甚至超过了使用约1000×600输入尺寸的两阶段方法中的大多数(如速度Faster R-CNN的70.4% mAP和R-FCN的77.6% mAP)。使用512×512的输入大小,RefineDet将mAP改进为80.1%,超过了所有的单阶段方法,仅略低于CoupleNet[54](即,80.4%)。CoupleNet使用ResNet-101作为基本网络,输入大小为1000×600。为了减少输入大小的影响,进行公平的比较,我们还使用多尺度测试对RefineDet进行了评估,得到了82.7% (RefineDet320 )和83.5% (RefineDet512 )的最新mAP。
5.3. MS COCO
除了PASCAL VOC,我们还对MS COCO进行了RefineDet评价。与PASCAL VOC不同的是,ResNet-101的检测方法比MS COCO上使用VGG-16的检测方法具有更好的性能。因此,我们也报告了基于ResNet-101的RefineDet的结果。按照MS COCO中的协议,我们使用trainval35k set进行训练,并从test-dev评估服务器评估结果。在training7中,我们将批量大小设置为32,在前280k迭代中,我们以10^{-3} 的学习率训练模型,在80k和40k迭代中,我们分别以10 - 4和10 - 5的学习率训练模型。
表7显示了MS COCO test-dev set上的结果。RefineDet320使用vgg -16生成29.4%的AP,这要优于基于vgg -16的所有其他方法(例如,SSD512和OHEM )。采用较大的输入尺寸(即,这比一些现代的目标检测器要好得多,比如Faster R-CNN和SSD512。同时,使用ResNet-101可以进一步提高RefineDet的性能,即其中,RefineDet320与ResNet-101的检测结果为32.0% AP, RefineDet512的检测结果为36.4% AP,超过了除更快的R-CNN w TDM、可变形的R-FCN、RetinaNet800、umd det、G-RMI外的大多数检测方法。所有这些方法都使用更大的输入图像进行训练和测试(即,1000×600或800×800)。, 320×320和512×512)。与PASCAL VOC类似,我们还报告了RefineDet的多尺度测试AP结果,以进行公平比较,如表7所示。, 35.2% (RefineDet320 with VGG-16), 37.6% (RefineDet512 VGG-16), 38.6% (Re-fineDet320 ResNet-101)和41.8% (RefineDet512 ResNet-101)。RefineDet的最佳性能为41.8%,是最先进的,超过了所有已发表的两阶段和一阶段方法。虽然第二好的探测器G-RMI[21]集成了5个Faster R-CNN模型,但它产生的AP仍然比使用单一模型的RefineDet低0.2%。与第三和第四最佳检测器相比,即, umd det和RetinaNet 800, RefineDet生产的APs分别高出1.0%和2.7%。此外,我们相信,它可以用于细化网络,进一步提高性能。
6.4. 从MS COCO到PASCAL VOC
研究了MS COCO数据集对PASCAL VOC检测精度的影响。PASCAL VOC的目标类是MS COCO的子集,我们直接调整检测模型预训练MS COCO通过二次抽样参数,达到84.0%mAP(RefineDet320)和85.2% (RefineDet512) VOC 2007测试集,和82.7%的mAP(RefineDet320)和85.0% (RefineDet512) onVOC 2012测试集,表4所示。采用多尺度检测后,检测精度分别提高到85.6%、85.8%、86.0%和86.8%。如表4所示,我们的RefineDet使用MS COCO和PASCAL VOC中的培训数据,得到了VOC 2007和VOC 2012的top mAP评分。最重要的是,我们基于VGG-16的单模型RefineNet512 在VOC 2012排行榜上排名前5,是所有单阶段方法中准确率最高的。其他两阶段的方法是基于更深层次的网络(如ResNet-101和ResNeXt-101)或使用集成机制来获得更好的结果。
7、结论
本文提出了一种单阶段神经网络的检测器,该检测器由两个相互连接的模块组成,ARM和ODM。ARM的目的是过滤掉负面锚减少搜索空间的分类器也粗调整位置和大小的锚为随后的回归量提供更好的初始化,同时ODM采用精制锚作为输入前ARM回归精确目标位置和大小和预测相应的多层次标签。整个网络采用端到端方式训练,具有多任务丢失的特点。我们在PASCAL VOC 2007、PASCAL VOC 2012和MS COCO数据集上进行了多次实验,证明RefineDet能够高效地实现最先进的检测精度。未来,我们计划利用RefineDet来检测其他一些特定类型的对象,如行人、车辆和人脸,并引入RefineDet中的注意机制,进一步提高性能。
8、目标检测的完整结果
我们将所提出的RefineDet方法在PASCAL VOC 2007测试集、PASCAL VOC 2012测试集和MS COCO test-dev测试集上的完整目标检测结果分别显示在表5、表6和表7中。在所有已发表的方法的结果中,我们的RefineDet在这三个检测数据集上,即, PASCAL VOC 2007测试集的mAP为85.8%,PASCAL VOC 2012测试集的mAP为86.8%,MS COCO test-dev测试集的AP为41.8%。
9、PASCAL VOC 2007上的检测结果分析
我们使用检测分析工具来了解两个RefineDet模型(即, RefineDet320和RefineDet512)。图6显示RefineDet可以检测到各种高质量目标类别(大的白色区域)。它的大部分可靠的探测是正确的。召回率在95%-98%左右,如果采用“弱”(0.1 jaccard重叠)标准,召回率要高得多。与SSD相比,RefineDet在各个方面都减少了假阳性误差:(1)RefineDet的定位误差(Loc)更小,说明RefineDet使用两步级联对目标进行归一化,可以更好地对目标进行定位。(2) RefineDet与background (BG)的混淆程度较低,这是由于在anchor细分模块(ARM)中使用了负锚过滤机制。(3) RefineDet与相似类别(Sim)的混淆程度较低,使用两阶段特征描述对象,即ARM的特征主要集中在二进制分类(是否为目标)上,而目标检测模块(ODM)的特征主要集中在多类分类(背景类或目标类)上。图7显示RefineDet对于不同的对象大小和纵横比都是健壮的。这并不奇怪,因为目标边界框是通过两步级联回归得到的,即,使锚盒的默认比例和长宽比多样化,以便ODM能够退回更难的目标(例如,特小、特大、特宽和特高)。但是,如图7所示,RefineDet对于小目标的性能仍然有很大的改进空间,尤其是对于桌椅。增加输入大小(例如,从320×320增加到512×512)可以提高小目标的性能,但这只是一个暂时的解决方案。在推理过程中,大量的输入会对运行速度造成负担。因此,检测小目标仍然是一项具有挑战性的任务,需要进一步研究。