行人检测跟踪计数、人员行为分析、人员属性分析、人员操作及穿戴合规监测等场景化能力在工业、安防、金融、能源等行业有着极其广泛的应用需求。以深度学习视觉技术为核心的行人分析能力,则是以上任务的核心关键,也是近十年人工智能科技公司不断发力深耕的赛道。
飞桨目标检测开发套件PaddleDetection中提供的PP-Human就是一套综合了目标检测、跟踪、关键点检测等核心能力的产业级开源实时行人分析工具。它基于企业真实场景数据打磨优化,拥有人体属性识别、行为识别与流量计数三大能力,兼容单张图片、单路或多路视频3种输入类型,还可适应不同光线、复杂背景及跨镜头场景!
PP-Human多功能全景图
不仅如此,PP-Human还直接提供目标检测、属性分析、关键点检测、行为识别、ReID预训练模型,方便开发者灵活取用及更改。
⭐PP-Human项目传送门⭐
https://github.com/PaddlePaddle/PaddleDetection
记得Star收藏,防止走丢又实时关注更新。
PP-Human具有怎样的架构,又如何使用呢?
PP-Human功能总览
PP-Human技术全景图
PP-Human采用pipeline的方式串联输入、子模块的预测与后处理部分。输入部分支持单张图片,图片文件夹,单镜头视频和多镜头视频,通过命令行输入不同参数即可实现对应功能。
PP-Human支持属性分析、行为识别、流量计数三大功能,包含目标检测、多目标跟踪、属性识别、关键点检测、行为识别和跨镜跟踪6大技术能力:
- 输入为图片:覆盖目标检测与属性识别功能
- 输入为单路视频:覆盖多目标跟踪、轨迹绘制与流量计数、属性识别、行为识别功能
- 输入为多路视频:覆盖跨镜跟踪功能
接下来,让我们详细看看PP-Human中每一个模块的技术选型及特点。
基础能力剖析:性能强、灵活度高的
行人检测与单、多镜头跟踪
行人检测:PP-Human提供的是基于飞桨高精度云边一体SOTA目标检测模型PP-YOLOE的行人检测预训练模型,其精度在混合数据集上可达到mAP 56.3,真实场景数据验证上可达到mAP 67.7,在T4上端到端耗时仅为28ms。
单镜头跟踪:PP-Human中的单镜头跟踪能力则是采用SDE方案,其数据标注和训练调优都更加灵活便捷,且对数据类型不敏感,拥有更强泛化性,具备高灵活度与产业易用两大特性:
SDE与JDE方案对比表
同时,为了弥补SDE方案的性能弱势,PP-Human在跟踪技术选型和优化上做了一下3种改进:
- 采用超高精度检测器:SDE模型的效果强依赖检测器的精度,因此检测部分选择了相较YOLOX精度提升1.3%、速度提升25%的PP-YOLOE
- 选择全新数据关联方式ByteTrack:与传统方式不同,ByteTrack不再丢弃物体被遮挡时的低分检测框,而是利用低分检测框与轨迹的相似性,降低漏检并提高轨迹连贯性,进而有效缓解人像重叠带来的跟丢、轨迹碎片化的问题。同时高效的检测模型和数据关联策略能够使得目标不需要使用ReID模型提取外观特征,从而进一步提升跟踪性能
- 优化预处理效率:将图像归一化操作合并于模型中执行,实现部署加速,提升整体性能
多镜头跟踪:在跨镜跟踪中,需要匹配在不同摄像头下出现的人,因此相对于跟踪任务,其更关注的是识别匹配问题,依赖的技术主要是行人重识别(ReID)技术。PP-Human的跨镜头跟踪主要包括ReID和特征质量选择两个部分:
- ReID:使用Centroid-ReID模型,整合多个开源数据集进行训练,提供了一款性能远优于其他开源模型的可应用模型。特征匹配使用多投票的方式,利用相同ID的多个目标特征的组合,来提高最终匹配效果,实现效率远高于Rerank方法。另外,其匹配方法与ReID模型独立,使用者可灵活更换任意ReID模型
- 特征质量选择:跨镜头跟踪中,ReID的匹配效果并不完全等同于实际的跟踪效果,其匹配效果还受到目标遮挡、完整度、模糊度等各种环境影响,这个过程中过滤低质量图片,保留高质量图片,能够进一步提升跨镜跟踪效果。
应用功能详解:
高精度26种人体属性分析
PP-Human中人体属性分析覆盖性别、年龄、朝向、穿着等26种属性,其原理是将人体检测框输入多标签分类网络StrongBaseline进行属性的识别与分类。基于PETA,RAP,PA-100K与企业真实场景数据的融合数据集进行训练,最终实现mAP 94.86、预测速度2ms/人的卓越性能。
上海天覆科技应用实景图
应用功能详解:
泛化性强的毫秒级行为识别
PP-Human中的行为识别模块采用的是跟踪 关键点检测 骨骼点系列识别的技术方案,适用于各类单纯与人体相关的行为识别场景,如摔倒、打架等等,同时具备以下特点:
- 鲁棒性强:对光照、视角、背景环境无限制
- 性能高:与视频识别技术相比,模型计算量大幅降低,支持本地化与服务化快速部署
- 训练速度快:仅需15分钟即可产出高精度行为识别模型
其中,由于整体效果依赖关键点检测,因此PP-Human选用精度更高的HRNet模型,并加入了DarkPose中的无偏encoding方法,在模型速度不损失的同时提升精度,骨骼点系列识别选择的则是经典模型ST-GCN,并加入数据增强、关键点归一化等优化策略,实现在业务数据集上单人耗时2.7ms,准确率达到96.83%的效果!
上海天覆科技办公区摔倒检测
应用功能详解:
一行代码即可实现的人流检测
PP-Human提供基于跟踪的人流检测,仅需开启参数即可实现去重人流统计,输出结果包括进入(in)和离开(out)的行人数量,适用于各类场景如商场、小区的人流监控。
看了这么多功能介绍,想要第一时间上手试试?PP-Human提供了完整项目教程,数行代码即可快速上手,记得Star收藏订阅最新动态哦!
https://github.com/PaddlePaddle/PaddleDetection/tree/release/2.4/deploy/pphuman