By 超神经
内容提要:口罩,已经成为疫情期间出门的标配。面对人员流动带来的疫情传播压力,车站、机场、地铁站等场合都严格检查出入人员体温、口罩佩戴情况等。百度在近日开源了一个口罩人脸检测及分类模型,除了识别人脸外,还可判断出他们是否佩戴口罩,识别及分类准确率分别达到 98% 和 96.5%。
关键词:佩戴口罩 人脸检测 判断分类
在疫情持续的当下,戴口罩且正确佩戴成为外出必备的通行证。但一对一的肉眼检查方式通行效率低,容易造成人群的被动聚集,增加了近距离接触的风险。
各地地铁站均要求乘客测体温,且佩戴口罩方可进站
近日,百度宣布免费开源业内首个口罩人脸检测及分类模型。
该模型可以有效检测在密集人流区域中,佩戴和未佩戴口罩的所有人脸,同时判断出他们是否佩戴口罩。
超 10 万张图片训练,0.3 秒可测戴口罩与否
据百度方面介绍,此次免费开源的自研口罩人脸检测及分类模型,是基于 2018 年百度发表于计算机视觉顶会 ECCV 的论文 PyramidBox,而研发的轻量级模型。
模型基于主干网络 FaceBoxes,对于光照、口罩遮挡、表情变化、尺度变化等常见问题具有很强的鲁棒性,并且能够在多种不同端、边、云设备上实时检测,在落地过程中做到真正实用。
模型适用于机场、火车站、汽车站、轮渡港口、医院
学校、企业、门店等人群密集的公共场所
据介绍,口罩人脸检测及分类模型,由两个功能单元组成,可以分别完成口罩人脸的检测和口罩人脸的分类。
经过测试,口罩人脸检测部分在准确度上达到了 98%,且口罩人脸分类部分的准确率达到了 96.5%,满足常规口罩检测需求。
检测模型功能演示,用户也可上传图片进行检测在线检测
地址:http://dwz.date/yrB
百度表示,新模型采用了超过十万张图片的训练数据,确保样本量足够且有效。基于大量数据的训练,实现了上述的准确率。
此外,该模型具有以下三个特点:
- 无接触快速预警,且 7*24 小时守护:从检测开始到识别完成仅需 300ms,准确率效果大于 98%,精准判断未戴口罩人士。
- 自动检测口罩佩戴是否正确:可以从俯视视角、平视视角精准判断口罩佩戴是否正确,有效排除口罩带反、露出口鼻、口罩上沿位于鼻子面部贴合等多种不合规情形,准确率效果大于 90%。
- 支持多种部署形式:可以将口罩识别模型以公有云 API、私有化本地部署、设备端 SDK 多种形式使用,与客户自有业务灵活适配,可综合应用移动端 App、视频检测等多种业务中使用。
据该模型研发工程师介绍,开发者可基于自有场景数据还可进行二次模型优化,进一步提升模型准确率和召回率。
为了最大程度方便开发者应用,百度深度学习平台飞桨通过简单易用的预训练模型管理工具将人脸口罩检测模型开源出来,只需基本的 Python 编程能力,即可快速上手调用。
如果具有一定的移动端 App 开发能力,也可以快速将模型部署到移动端上。
PyramidBox,曾获 WIDER FACE 三料冠军
我们在此回顾一下上文所提到的论文,并了解其算法。
在国际顶级计算机视觉会议 ECCV 2018 上,百度发表了论文《PyramidBox:一种环境辅助的单步人脸检测器》。
论文地址:https://arxiv.org/pdf/1803.07737v1.pdf
这篇论文曾获得 WIDER FACE 三料冠军。算法聚焦检测难度大的人脸,比如小尺度、模糊、部分遮挡的面部,在 WIDER FACE 验证集和测试集的困难子集上达到了 88.9% 和 88.7% 的 mAP(mean Average Precision,即准确率)。
论文中介绍道,作者们在 FAN(Face Attention Network)提出了一个 anchor 级的关注机制,通过高亮面部区域的特征来检测被遮挡的人脸。
此外,还提出了一种基于 anchor 的环境辅助方法,即 PyramidAnchors,从而引入有监督的信息,来为较小的、模糊的和部分遮挡的人脸学习环境特征。
PyramidBox 架构。它包含主干网络层、低层级特征金字塔
网络层 (LFPN)、环境敏感的预测网络层等
由于在现实世界中,人脸从不单独出现,而是一般和肩膀或者身体一起,这提供了丰富的可利用的环境关联,尤其是面部纹理由于低分辨率,模糊或者遮挡不能被辨别时。
因此,论文作者提出了一个新的环境辅助的网络框架,充分利用了环境信号,步骤如下:
第一,网络不仅能学习面部特征,还能学习环境特征例如头部和身体。实现这个目标需要额外的标签,需要设计和这些部分匹配的 anchor。
本文用半监督的方案来生成环境部分的近似的标签,构造一系列叫做 PyramidAnchors 的 anchors。PyramidAnchors 可以很容易地添加到一般的基于 anchor 的结构中。
PyramidAnchors 自动生成,不需要额外标签
第二,高层次的环境特征应该和低层级的充分结合。检测难度高和低的面部的外观非常不同,意味着不是所有高层级的语义特征都对检测小目标有利。
作者们研究特征金字塔网络 (FPN) 的性能,并把它改成了低层级的特征金字塔网络 (LFPN),以结合相互有帮助的特征。
第三,预测分支网络应该充分利用结合了的特征。作者们采用环境敏感预测模块 (CPM) 用一个广而深的网络来吸收目标人脸周围的环境信息。
为了学习更有代表性的特征,困难样本的多样性非常重要,可以通过交叉样本的数据增强实现。
作者使用 WIDER FACE 训练集中的 12880 张图片训练 PyramidBox,并且使用了颜色扭转 (color distort),随机裁剪 (random crop) 和水平翻转 (horizontal flip) 等图像预处理手段。
—— 完 ——