张兆翔：基于深度学习的物体检测进展和趋势

一

报告导读

本文报告介绍了深度学习在物体检测方面的最新进展，以及研究团队最近的几项研究工作，同时对深度学习在检测问题上的瓶颈和下一步突破进行了展望。

二

专家介绍

张兆翔，中国科学院自动化研究所研究员，国家"万人计划"青年拔尖人才。中国科学院脑科学与智能技术卓越创新中心年轻骨干，国际电子电气工程师学会(IEEE)高级会员，计算机学会(YOCSEF)委员，计算机视觉专委会委员，模式识别与人工智能专委会委员，人工智能学会模式识别专委会委员。主要从事智能视觉监控方面的研究工作。

三

报告内容

物体检测（Object Detection）是计算机视觉里一个非常经典的问题，传统方法通常使用划窗（slide window），使用手工提取的特征，效果比较差。

近年来，深度学习技术的发展，帮助我们大大提升了工作的性能，用卷积神经网络自动学习特征的表达，通过分类识别，进而和需要检测的位置结合在一块。目前已有向Faster R-CNN等多种深度学习的框架模型，使物体检测的性能提升了一个很大的台阶，性能、速度和实用性都得到了一个很好的改善。

但是深度学习还存在一些问题，比如卷积神经网络作为深度学习做得比较好的一个模块，它与尺度（scale）没有关系，但是检测本身确是与尺度是相关的。这体现在不同的场景下，尺度是不一样的，即便在一个场景当中，也存在近大远小的现象。

基于这样的考虑，已经有不少的方法试图去解决，比如说将输入的图像建立尺度金字塔，或者将不同的特征层次建立金字塔，在神经网络训练时在不同的尺度上进行分析，进而融合在一起。

第一项介绍的研究工作是发表在ICCV 2019上的POD (Scale-Sensitive Practical Object Detection)，是一种对硬件加速非常友好的物体检测方法，同时能够通过对整个尺度的变化有很好的鲁棒性。

卷积神经网络中一直往后进行卷积时，遇到后层的神经元能够覆盖图象的尺寸是在不断的变大，在变大的过程中是可以把整个图象都感知到的，但是由于连接强度的不同，空间是非常有限的，可以用一个高斯分布进行表示。

在这个高斯分布中间的时候可能会刻画比较好，在外面刻画的不是特别好，通过一些手段可以解决这些问题，例如使用膨胀空洞卷积。

然后，怎么解决尺度问题呢，这里主要是通过一个分解（Decomposition）操作在不增加参数的情况恰能够有效解决尺度的问题，而且能够对硬件加速非常的友好。

第二项工作是和物体检测中的网络空间搜索相关的NATS（ Efficient Neural Architecture Search for Object Detection），主要是在通道上（channel）角度上进行切分，解决问题的方法是更复杂的任务，性能得到最佳。

第三项研究工作室三叉戟网络TriNet（Trident Network for Object Detection），通过不同的分支类型去刻画尺度，分别适应解决小目标、中型目标、大目标的问题，这项工作已经开源，得到了很好的关注。

最后作个总结，在深度学习之前计算机视觉遇到了一个瓶颈，但是深度学习突破了这个瓶颈，大大提升了性能，而且通过我们近期开展的一些工作发现，针对现在物体检测的问题，深度学习还有很多的事可以做，当然我们可以看到，在前方或者很远或者不远的地方有瓶颈，但是我们今天依旧有很多的事可做。另外在物体检测的基础上我们怎么样去结合常见的先验信息等等结合在一起，可以更好地提升性能。

深度学习卷积神经网络图像处理模式识别

0 人点赞