腾讯（优图）新技术的人脸检测

【导读】分享的文章，其提出了一种新的人脸检测网络，解决了人脸检测的三个关键方面，包括更好的特征学习、渐进的损失设计和基于锚的数据增强。首先，提出了一种增强原始特征映射的特征增强模块(FEM)，将单个镜头探测器扩展到双镜头探测器。其次，采用由两组不同的锚计算的渐进锚损失(PAL)来有效地促进特征。第三，通过将新的锚分配策略集成到数据增强中，使用了改进的锚匹配(IAM)，以提供对REGRESOR的更好的初始化。由于这些技术都与双流设计有关，所以将提出的网络命名为双镜头人脸检测器(DSFD)。对流行的基准，WIDER FACE和FDDB进行了广泛实验，证明了DSFD优于现有技术的人脸检测器的优越性。

引言

作为人脸检测的先驱工作，Viola-Jones采用Adaboost算法，具有手工制作的特征，现在已被卷积神经网络(CNN)的深度学习的特征所取代，取得了很大的进步。尽管基于CNN的人脸检测器已经被广泛地研究，但是在真实世界场景中检测具有高度可变性的面部、姿势、遮挡、表情、外观和照明仍然是一个挑战。

现有技术的人脸检测器可以粗略地分成两类，第一个主要是基于Faster RCNN中采用的区域建议网络(RPN)，并且采用两级检测方案。RPN是经过训练的端到端，并产生高质量的区域候选，这些候选通过Faster R-CNN探测器进一步完善。另一个是基于单镜头探测器(SSD)的单级方法，该方法摆脱了RPN，直接预测了边界框。

最近，由于较高的推理效率和直接的系统部署，One shot的人脸检测框架引起了更多的关注。具体分析见“计算机视觉协会”知识星球。

Dual Shot Face Detector

DSFD的框架如下图所示。体系结构使用了与Pyramid Box和S3FD相同的扩展VGG16框架，在分类层之前被截断，并添加了一些辅助结构。注意，训练图像的输入尺寸为640，这意味着从最低层到最高层的特征图大小为160到5。不同于S3FD和Pyramid Box，在利用有限元法中的感受野放大和新的锚设计策略后，对于步长、锚和感受野三种尺寸满足等比例间隔原则的情况，都是不必要的。因此，DSFD具有更大的灵活性和鲁棒性。此外，原有的和增强的镜头有两个不同的损失，分别是第一次发射渐进锚损失(FSL)和第二次发射渐进锚损失(SSL)。