目标检测已经进入深度学习时代,但是传统方法还是有必要了解下,深度学习方法的思想也来源于传统方法,传统方法的文献非常多[9],但只需要了解三个里程碑式的方法就可以了,分别是Viola Jones Detectors、HOG Detector、Deformable Part-based Model (DPM)。下面简要介绍这三种方法,更深入的理解见查看参考文献。
一、Viola Jones Detectors
2001年,P. Viola和M. Jones在没有任何约束条件(如肤色分割)的情况下首次实现了人脸的实时检测[1,2]。该检测器运行在700MHz奔腾III CPU上,在同等的检测精度下,其速度是其他算法的数十倍甚至数百倍。该检测算法后来被称为“维奥拉-琼斯(Viola-Jones, VJ)检测器”,在此以作者的名字命名,以纪念他们的重大贡献。
VJ检测器采用最直接的检测方法,即,滑动窗口:查看图像中所有可能的位置和比例,看看是否有窗口包含人脸。虽然这似乎是一个非常简单的过程,但它背后的计算远远超出了计算机当时的能力。VJ检测器结合了“积分图像”、“特征选择”和“检测级联”三种重要技术,大大提高了检测速度。主要采用的技术为:
- 积分图像:积分图像是一种加速盒滤波或卷积过程的计算方法。与当时的其他目标检测算法一样,在VJ检测器中使用Haar小波作为图像的特征表示。积分图像使得VJ检测器中每个窗口的计算复杂度与其窗口大小无关。
- 特征选择:作者没有使用一组人工选择的Haar基滤波器,而是使用Adaboost算法从一组巨大的随机特征池(约180k维)中选择一组对人脸检测最有帮助的小特征。
- 检测级联:在VJ检测器中引入多级检测范式(又称“检测级联”),通过减少背景窗口的计算量,增加对人脸目标的计算量,从而降低计算开销。
二、HOG Detector
方向梯度直方图(HOG)特征描述符最初是由N. Dalal和B. Triggs[3]在2005年提出的。HOG可以被认为是对scale-invariant feature transform和shape contexts重要改进。为了平衡特征不变性(包括平移、尺度、光照等)和非线性(区分不同对象类别),将HOG描述符设计为在密集的均匀间隔单元网格上计算,并使用重叠局部对比度归一化(在“块”上)来提高精度。虽然HOG可以用来检测各种对象类,但它的主要动机是行人检测问题。为了检测不同大小的对象,HOG检测器在保持检测窗口大小不变的情况下,对输入图像进行多次重标。多年来,HOG检测器一直是许多对象检测器和各种计算机视觉应用的重要基础。
三、Deformable Part-based Model (DPM)
DPM作为VOC-07、-08、-09检测挑战的优胜者,是传统目标检测方法的巅峰。DPM最初是由P. Felzenszwalb[4]于2008年提出的,作为HOG检测器的扩展,之后R. Girshick[5,6,7,8]进行了各种改进。DPM遵循“分而治之”的检测思想,训练可以简单地看作是学习一种正确的分解对象的方法,推理可以看作是对不同对象部件的检测的集合。例如,检测“汽车”的问题可以看作是检测它的窗口、车身和车轮。工作的这一部分,也就是。“star model”由P. Felzenszwalb等人完成。后来,R. Girshick进一步将star模型扩展到“混合模型”,以处理更显著变化下的现实世界中的物体。一个典型的DPM检测器由一个根过滤器和一些部分过滤器组成。该方法不需要手动指定零件滤波器的配置(如尺寸和位置),而是在DPM中开发了一种弱监督学习方法,所有零件滤波器的配置都可以作为潜在变量自动学习。R. Girshick将此过程进一步表示为多实例学习[39]的一个特例,并应用了“硬负挖掘”、“边界盒回归”、“上下文启动”等重要技术来提高检测精度。为了加快检测速度,Girshick开发了一种技术,将检测模型“编译”成一个更快的模型,该模型实现了级联结构,在不牺牲任何精度的情况下实现了超过10倍的加速度[14,38]。虽然目前的对象检测器在检测精度上已经远远超过了DPM,但其中很多仍然深受其有价值的见解的影响,如混合模型、硬负挖掘、边界盒回归等。2010年,P. Felzenszwalb和R. Girshick被PASCAL VOC授予“终身成就奖”。
参考文献:
- P. Viola and M. Jones, “Rapid object detection using a boosted cascade of simple features,” in Computer Vision and Pattern Recognition, 2001. CVPR 2001. Proceedings of the 2001 IEEE Computer Society Conference on, vol. 1. IEEE, 2001, pp. I–I.
- P. Viola and M. J. Jones, “Robust real-time face detection,” International journal of computer vision, vol. 57, no. 2, pp.137–154, 2004.
- N. Dalal and B. Triggs, “Histograms of oriented gradients for human detection,” in Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, vol. 1. IEEE, 2005, pp. 886–893.
- P. Felzenszwalb, D. McAllester, and D. Ramanan, “A discriminatively trained, multiscale, deformable part model,” in Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on. IEEE, 2008, pp. 1–8.
- P. F. Felzenszwalb, R. B. Girshick, and D. McAllester, “Cascade object detection with deformable part models,” in Computer vision and pattern recognition (CVPR), 2010 IEEE conference on. IEEE, 2010, pp. 2241–2248.
- P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan, “Object detection with discriminatively trained part-based models,” IEEE transactions on pattern analysis and machine intelligence, vol. 32, no. 9, pp. 1627–1645, 2010.
- R. B. Girshick, P. F. Felzenszwalb, and D. A. Mcallester, “Object detection with grammar models,” in Advances in Neural Information Processing Systems, 2011, pp. 442–450.
- R. B. Girshick, From rigid templates to grammars: Object detection with structured models. Citeseer, 2012.
- Z. Zou , Z. Shi, Y. Guo, et al. Object Detection in 20 Years: A Survey[J], 2019