基于YOLO分析人员工服识别算法

2022-11-22 13:40:13 浏览数 (2)

基于YOLO分析人员工服识别算法依据大规模不同外观数据识别训练,新设计的基础模型(特征提取器),称作darknet-19,包括19个卷积层5个maxpooling层,darknet的设计与VGG16的设计原理一致,主要采用3*3卷积,采用2*2max pooling层之后,特征图维度降低2倍,而同时特征图的channels增加2倍,最后采用global avgpooling做预测。并在3*3卷积之间添加1*1卷积压缩通道。darknet每个卷积层之后使用了batch normalization。

该网络结构包括 24 个卷积层,最后接 2 个全连接层。Draknet[13]网络借鉴 GoogleNet 的思想,在每个1x1的卷积层之后再接一个3∗3的卷积层的结构替代 GoogleNet 的Inception结构。论文中还提到了更快版本的 Yolo,只有 9 个卷积层,其他则保持一致。

       YOLO v1全部使用了均方差(mean squared error)作为损失(loss)函数。由三部分组成:坐标误差、IOU误差和分类误差。

       考虑到每种loss的贡献率,YOLO v1给坐标误差(coordErr)设置权重λcoord=5。在计算IoU误差时,包含物体的格子与不包含物体的格子,二者的IOU误差对网络loss的贡献值是不同的。若采用相同的权值,那么不包含物体的格子的置信度值近似为0,变相放大了包含物体的格子的置信度误差,在计算网络参数梯度时的影响。为解决这个问题,YOLO 使用λnoobj=0.5修正(置信度误差)iouErr。(此处的‘包含’是指存在一个物体,它的中心坐标落入到格子内)。

YOLOv1最后直接使用全连接层对边界框进行预测,其中边界框的高度是相对整张照片大小的,而由于各个图片中存在不同尺寸和长宽比的物体,YOLOv1在训练过程中学习适应不同物体的形状是比较困难的,这也导致YOLOv1在精确定位方面的表现较差。

YOLOv2借鉴Faster-CNN的RPN网络的先验框,PRN对CNN特征提取器得到的特征图进行卷积来预测每个位置的边界框以及置信度(是否有目标),并且各个位置设置不同尺寸和比例的先验框,所有RPN预测的是边界框相对于先验框的偏移值,使用先验框使得更容易学习

0 人点赞