Yolov3演示地址
演示视频:https://youtu.be/MPU2HistivI
演示视频:
YOLOv3非常快速和准确。 在mAP值为0.5 IOU时,YOLOv3与Focal Loss相当,但速度约快4倍。 此外,您只需更改模型的大小即可轻松在速度和精度之间进行权衡,而无需重新训练!
我们使用完全不同的方法。 我们将单个神经网络应用于完整图像。 该网络将图像划分为多个区域,并预测每个区域的边界框和概率。 这些边界框由预测的概率加权。
与基于分类器的系统相比,我们的模型具有多个优势。 它在测试时查看整个图像,因此其预测由图像中的全局上下文提供。 它还像R-CNN这样的系统需要一个网络评估来进行预测,而R-CNN单个图像需要数千个评估。 这使其速度非常快,比R-CNN快1000倍以上,比Fast R-CNN快100倍。 有关完整系统的更多详细信息,请参见我们的论文。
YOLOv3使用一些技巧来改进训练并提高性能,包括:多尺度预测,更好的主干分类器等等。 完整的细节在我们的
版本3有什么新功能?
论文地址:https://pjreddie.com/media/files/papers/YOLOv3.pdf
bounding Box 预测
遵循YOLO9000,我们的系统使用尺寸簇作为锚定框来预测边界框[15]。 网络为每个边界框tx,ty,tw,th预测4个坐标。 如果单元格从图像的左上角偏移了(cx,cy)并且先验边界框的宽度和高度为pw,ph,则预测对应于:
2.2分类预测
每个框使用多标签分类预测边界框可能包含的类。 我们不使用softmax,因为我们发现它不需要良好的性能,而是仅使用独立的逻辑分类器。 在训练过程中,我们使用二元交叉熵损失进行类别预测。
2.3跨尺度的预测
YOLOv3预测3种不同比例的盒子。 我们的系统使用类似的概念从金字塔特征网络中提取特征,以金字塔网络为特征[8]。 从基本特征提取器中,我们添加了几个卷积层。 这些中的最后一个预测3D张量编码边界框,客观性和类预测。 在我们用COCO [10]进行的实验中,我们预测每个尺度上有3个盒子,因此对于4个边界框偏移,1个客观性预测和80个类预测,张量为N×N×[3 *(4 1 80)]。
接下来,我们从先前的2层中获取特征图,并将其上采样2倍。 我们还从网络的早期获取了一个特征图,并使用级联将其与我们的上采样特征合并。 这种方法使我们能够从上采样的特征中获取更有意义的语义信息,并从较早的特征图中获得更细粒度的信息。 然后,我们再添加一些卷积层以处理此组合特征图,并最终预测相似的张量,尽管现在的大小是原来的两倍。
我们再执行一次相同的设计,以预测最终比例的盒子。 因此,我们对第3级的预测受益于所有先前的计算以及网络早期的细粒度功能。
我们仍然使用k-means聚类来确定边界框先验。 我们只是随意选择了9个聚类和3个比例,然后将这些聚类在各个比例之间平均分配。 在COCO数据集上,9个聚类为:(10×13),(16×30),(33×23),(30×61),(62×45),(59×119),(116×90) ,(156×198),(373×326)。
2.4 特征提取
我们使用一个新的网络来执行特征提取。 我们的新网络是YOLOv2,Darknet-19中使用的网络与新的残留网络内容之间的混合方法。 我们的网络使用了连续的3×3和1×1卷积层,但现在也具有一些快捷连接,并且明显更大。 它有53个卷积层,所以我们称它为....等待它... Darknet-53!
每个网络都经过相同设置的训练,并以256×256的单作物精度进行测试。 运行时间是在Titan X上以256×256进行测量的。因此Darknet-53与最新的分类器具有同等的性能,但浮点运算更少,速度更高。 Darknet-53优于ResNet-101,并且快1.5倍。 Darknet-53具有与ResNet-152相似的性能,并且快2倍。
Darknet-53还实现了每秒最高的测量浮点运算。 这意味着网络结构可以更好地利用GPU,从而使其评估效率更高,从而速度更快。 这主要是因为ResNets层太多了,效率也不高。
我们仍然会训练完整的图像,而不会进行任何艰苦的负面挖掘工作。 我们使用多尺度培训,大量数据扩充,批处理规范化以及所有标准内容。 我们使用Darknet神经网络框架进行培训和测试[14]。
2.5 训练
我们仍然会训练完整的图像,而不会进行任何艰苦的负面挖掘工作。 我们使用多尺度培训,大量数据扩充,批处理规范化以及所有标准内容。 我们使用Darknet神经网络框架进行培训和测试[14]。
过去,YOLO一直在努力处理小物件。 但是,现在我们看到了这种趋势的逆转。 通过新的多尺度预测,我们看到YOLOv3具有相对较高的APS性能。 但是,它在中型和大型对象上的性能相对较差。 要深入了解这一点,还需要进行更多调查。