题目:Object Detection in 20 Years: A Survey
作者:Zhengxia Zou (1), Zhenwei Shi (2), Yuhong Guo (3 and 4), Jieping Ye (1 and 4)
((1) University of Michigan, (2) Beihang University, (3) Carleton University, (4) DiDi Chuxing)
【摘要】目标检测作为计算机视觉中最基本、最具挑战性的问题之一,近年来受到了广泛的关注。它在过去二十年的发展可以说是计算机视觉历史的缩影。如果我们把今天的目标检测看作是深度学习力量下的一种技术美学,那么让时光倒流20年,我们将见证冷兵器时代的智慧。本文从目标检测技术发展的角度,对近四分之一世纪(20世纪90年代至2019年)的400余篇论文进行了广泛的回顾。本文涵盖了许多主题,包括历史上的里程碑检测器、检测数据集、度量、检测系统的基本构建模块、加速技术以及最新的检测方法。本文还综述了行人检测、人脸检测、文本检测等重要的检测应用,并对其面临的挑战以及近年来的技术进步进行了深入分析。
参考链接:
https://arxiv.org/abs/1905.05055
引言
近几年,视觉目标检测的研究工作非常多,发表了许多关于一般目标检测的综述[24-28]。本文与上述综述的主要区别如下:
- 基于技术演进的全面回顾:本文广泛回顾了目标检测发展史上的400多篇论文,时间跨度超过25年(上世纪90年代至2019年)。以前的大多数综述仅仅关注一个较短的历史时期或一些特定的检测任务,而没有考虑它们整个生命周期中的技术演进。站在历史的高速公路上,不仅有助于读者建立一个完整的知识体系,而且有助于找到这个快速发展领域的未来方向。
- 深入探索关键技术及最新技术状态:经过多年的发展,目前的目标检测系统已与“多尺度检测multiscale detection”、“ hard negative mining”、“ bounding boxregression”等大量技术相结合。然而,以前的综述缺乏基本的分析来帮助读者理解这些复杂技术的本质,例如,“它们从哪里来,它们是如何进化的?”“每种方法的优缺点是什么?”本文针对上述问题对读者进行了深入的分析。
- 对检测加速技术的全面分析: 目标检测的加速一直是一项关键而又具有挑战性的任务。本文从多个层面对20多年来目标检测历史上的提速技术进行了广泛的回顾,包括“detectionpipeline”(如级联检测、特征图共享计算)、“detectionbackbone”(如网络压缩、轻量级网络设计)、“numericalcomputation”(如积分图像、矢量量化)等。以前的综述很少涉及这个主题。
本文的其余部分组织如下。在第二部分中,我们回顾了20年来目标检测的发展历史。第3节将介绍一些加速目标检测的技术。第四部分总结了近三年来一些最先进的检测方法。第5节将回顾一些重要的检测应用。第六部分对本文进行了总结,并对进一步的研究方向进行了分析。
图1 从1998年到2018年,越来越多的关于目标检测的论文发表。(数据来自谷歌scholar advanced search: allintitle:“object detection”AND“detection objects”)
图2 目标检测的路线图。图中的里程碑检测器: VJ Det. [10,11], HOG Det. [12], DPM [13-15], RCNN [16], SPPNet [17], Fast RCNN [18], Faster RCNN [19], YOLO [20], SSD [21], Pyramid Networks [22], Retina-Net[23]。
图3。在VOC07、VOC12和MS-COCO数据集上对目标检测精度的提高。图中检测器:DPM-v1 [13], DPM-v5 [21]0, RCNN [16], SPPNet [17], Fast RCNN [18], Faster RCNN [19], SSD [21], FPN [22], Retina-Net [23], RefineDet [55], TridentNet[56]。
图4 (a) PASCAL-VOC07、(b) ILSVRC、(c) MS-COCO和(d) Open images中的一些示例图像和标注。
表1 一些常用的目标检测数据集及其统计数据。
图5 早期一些著名的检测模型:(a) Eigenfaces [95],(b) Shared weight networks [96],(c) Space displacement networks (Lenet-5) [97], (d) Haar wavelets of VJ detector [10]。
图6 从2001年到2019年,多尺度检测技术在目标检测中的发展:1)特征金字塔和滑动窗口,2)基于object proposals的检测,3)深度回归,4)多参考检测,5)多分辨率检测。图中检测器: VJ Det. [10], HOG Det. [12], DPM [13, 15], Exemplar SVM [36], Overfeat [103], RCNN [16], SPPNet [17], Fast RCNN [18], Faster RCNN [19], DNN Det. [104], YOLO [20], YOLO-v2 [48], SSD [21], Unified Det. [105], FPN [22], RetinaNet [23], RefineDet [55], TridentNet [56].
图7 2001 - 2019年bounding box regression技术在目标检测中的发展。图中检测器: VJ Det. [10], HOG Det. [12], Exemplar SVM [36], DPM [13, 15], Overfeat [103], RCNN [16], SPPNet [17], Fast RCNN [18], Faster RCNN [19], YOLO [20], SSD [21], YOLO-v2 [48], Unified Det. [105], FPN [22], RetinaNet [23], RefineDet [55], TridentNet [56].
图8 2001 - 2019年context priming在目标检测中的演变: 1)局部上下文检测,2)全局上下文检测,3)上下文交互检测。图中检测器: Face Det. [139], MultiPath [140], GBDNet [141, 142], CC-Net [143], MultiRegion-CNN [144], CoupleNet [145], DPM [14, 15], StructDet [146], YOLO [20], RFCN [147], ION [148], AttenContext [149], CtxSVM [150], PersonContext [151], SMN [152], RetinaNet [23], SIN [153].
图9 从1994年到2019年,non-max suppression (NMS)技术在目标检测中的发展: 1) Greedy selection,2) Bounding box aggregation,3) Learn to NMS。该图中的检测器有: VJ Det. [10], Face Det. [96], HOG Det. [12], DPM [13, 15], RCNN [16], SPPNet [17], Fast RCNN [18], Faster RCNN [19], YOLO [20], SSD [21], FPN [22], RetinaNet [23], LearnNMS [154], MAP-Det [155], End2End-DPM [136], StrucDet [146], Overfeat [103], APC-NMS [156], MAPC [157], SoftNMS [158], FitnessNMS [159].
图10 从1994年到2019年,目标检测中hard negative mining技术的发展。图中检测器有: Face Det. [164], Haar Det. [29], VJ Det. [10], HOG Det. [12], DPM [13, 15], RCNN [16], SPPNet [17], Fast RCNN [18], Faster RCNN [19], YOLO [20], SSD [21], FasterPed [165], OHEM [166], RetinaNet [23], RefineDet [55].
图12 目标检测中加速技术的概述。
图13 说明如何计算图像的HOG映射。
图16 利用快速傅立叶变换和反快速傅立叶变换在频域中加速线性检测器(如HOG检测器、DPM等) [226]。
图17 三种检测器的检测精度的比较:Faster RCNN [19], R-FCN [46] 和SSD [21] 在具有不同检测引擎的MS-COCO数据集上。图片来自J. Huang et al. CVPR2017 [27]。
图18 不同的特征融合方法的说明: (a) bottomup fusion, (b) top-down fusion, (c) element-wise sum, (d) element-wise product, 和 (e) concatenation.
图21 人脸检测面临的挑战:(a)类内变异,图片来自于WildestFaces Dataset [70]。(b) 面部遮挡,来自UFDD数据集的图像[69]。(c)多尺度人脸检测。图片来自P. Hu et al. CVPR2017 [322].
图22 文本检测和识别方面的挑战: (a)字体、颜色和语言的变化。图片来自maxpixel(免版权)。(b)文本旋转和透视失真。图片来自Y. Liu et al. CVPR2017 [336]。(c)密集排列的文本局部化。图片来自Y. Wu et al. ICCV2017 [337].
图23 交通标志检测和交通灯检测面临的挑战:(a)光照变化。图片来自pxhere(免版权)。(b)运动模糊。图片来自GTSRB Dataset [81]。(c) 恶劣天气下的探测。图片来自Flickr和Max Pixel(免版权)。
结论与未来发展方向
作者也对目标检测未来的趋势做了简要的描述,未来的目标检测研究可能会集中在以下几个方面:
- 轻量级目标检测: 加速检测算法,使其能够在移动设备上平稳运行。
- 符合AutoML:未来的一个方向是使用神经结构搜索,减少设计检测模型时的人为干预(例如,如何设计引擎,如何设置锚盒)。AutoML可能是目标检测的未来。
- 检测满足域自适应:任何目标检测器的训练过程本质上都可以看作是一个在独立且同分布(i.i.d)数据假设下的似然估计过程。使用非i.i.d进行目标检测,数据,特别是对一些实际应用程序来说,仍然是一个挑战。GAN在领域自适应方面显示出良好的应用前景,对未来的目标检测具有重要的指导意义。
- 弱监督检测
- 小目标检测
- 在视频中检测
- 信息融合检测