堪称世界计算机科技界奥运会的ACM又举办了ACM MM 2020大会,于10月12日至16日在美国西雅图举行,人工智能独角兽企业深兰科技DeepBlueAI团队战胜了来自三星、厦门大学等机构的团队,斩获了视频目标检测赛道的冠军。
团队对低分辨率、复杂场景下的视频目标检测问题进行了探索,方案可用于自动驾驶、安防监测中目标实体的身份识别和行为理解,对例如深兰熊猫智能公交车等相关领域产品性能的提升和应用落地也起到了助推作用。
ACM MM(ACM International Conference on Multimedia,国际多媒体会议)是ACM多媒体领域的顶级会议,涵盖多个新兴领域,致力于推动多媒体的研究和应用,包括但不限于图像,文本,音频,语音,音乐,传感器和社交数据。自1993年首次召开以来,ACM MM每年召开一次。
赛题介绍
尽管计算机视觉的最新进展有效地提高了多媒体系统的性能,但仍然不能明确回答一个核心问题:机器是否理解视频中发生的事情,分析结果是否可以被人类用户解释?为了推动上述问题的研究,新加坡国立大学推出了VidOR数据集。该数据集包含10,000个从YFCC100M[2]数据集中筛选的视频(98.6小时),80个类别的目标(例如成人、狗、玩具)和50个类别的关系(例如旁边、观看、保持)标注;同时举办Video Relation Understanding[1]竞赛,该竞赛同时是ACM Multimedia 2020 Grand Challenge中的竞赛任务。
视频目标检测(Video Relation Understanding:Video Object Detection)作为基于VidOR数据集的竞赛任务。要求参与者开发鲁棒的目标检测器,该检测器需要不仅可以在每个视频帧中使用检测框定位目标,还需要将指示同一目标实体的检测框链接到轨迹中。这将帮助机器在视频级别理解目标实体的身份和动态,还可以使需要细粒度视频理解的许多应用程序受益。
评测指标
在评测指标中包含目标检测与轨迹生成两部分。在检测部分,主办方采用
、
、
指标。在轨迹生成部分主办方采用的评价指标,定义如下:
其中
、
分别代表预测轨迹与真实标注轨迹信息。当预测轨迹与真实轨迹时间重叠部分大于0.5时被判定为真阳性预测,然后再分别采用三种不同的目标检测AP指标评测预测轨迹中帧级别的检测质量,并将三种指标的均值作为最终的得分。
赛题难点
1.检测器需要重新识别视频中消失重现的目标;
2.摄像机可以自由移动,存在剧烈抖动的问题;
3.视频分辨率较低,存在照明、模糊、物体外形变化的问题;
4.需要识别的目标类别多及目标类别不均衡的问题;
5.很多标注信息非人工标注,导致标注信息不准确。
解决方案
经过任务分析,我们最终采用了目标检测 多目标跟踪的解决思路。包含检测器设计,深度度量学习算法设计与多目标跟踪算法实现三部分。
Detector
在检测部分,我们采用Cascade Rcnn[3]作为我们的baseline,并设计添加FPN[5]结构与采用Guided anchoring[6]用于生成高质量的Anchor,为了进一步提升性能,我们在backbone中引入可变形卷积[4]。
为了训练检测器,我们对比在所有视频和只在有人工标注信息的视频中抽取帧制作训练集与验证集。实验结果如下:
数据集:ACM MM 2020
ACM MM 2020于10月12日至16日在美国西雅图举行,深兰科技DeepBlueAI 团队战胜了来自三星、厦门大学等机构的团队,斩获了视频目标检测赛道的冠军。
团队对低分辨率、复杂场景下的视频目标检测问题进行了探索,方案可用于自动驾驶、安防监测中目标实体的身份识别和行为理解,对例如深兰熊猫智能公交车等相关领域产品性能的提升和应用落地也起到了助推作用。
ACM MM(ACM International Conference on Multimedia,国际多媒体会议)是ACM多媒体领域的顶级会议,涵盖多个新兴领域,致力于推动多媒体的研究和应用,包括但不限于图像,文本,音频,语音,音乐,传感器和社交数据。自1993年首次召开以来,ACM MM每年召开一次。
赛题介绍
尽管计算机视觉的最新进展有效地提高了多媒体系统的性能,但仍然不能明确回答一个核心问题:机器是否理解视频中发生的事情,分析结果是否可以被人类用户解释?为了推动上述问题的研究,新加坡国立大学推出了VidOR数据集。该数据集包含10,000个从YFCC100M[2]数据集中筛选的视频(98.6小时),80个类别的目标(例如成人、狗、玩具)和50个类别的关系(例如旁边、观看、保持)标注;同时举办Video Relation Understanding[1]竞赛,该竞赛同时是ACM Multimedia 2020 Grand Challenge中的竞赛任务。
视频目标检测(Video Relation Understanding:Video Object Detection)作为基于VidOR数据集的竞赛任务。要求参与者开发鲁棒的目标检测器,该检测器需要不仅可以在每个视频帧中使用检测框定位目标,还需要将指示同一目标实体的检测框链接到轨迹中。这将帮助机器在视频级别理解目标实体的身份和动态,还可以使需要细粒度视频理解的许多应用程序受益。
评测指标
在评测指标中包含目标检测与轨迹生成两部分。在检测部分,主办方采用、、指标。在轨迹生成部分主办方采用的评价指标,定义如下:
其中、分别代表预测轨迹与真实标注轨迹信息。当预测轨迹与真实轨迹时间重叠部分大于0.5时被判定为真阳性预测,然后再分别采用三种不同的目标检测AP指标评测预测轨迹中帧级别的检测质量,并将三种指标的均值作为最终的得分。
赛题难点
1.检测器需要重新识别视频中消失重现的目标;
2.摄像机可以自由移动,存在剧烈抖动的问题;
3.视频分辨率较低,存在照明、模糊、物体外形变化的问题;
4.需要识别的目标类别多及目标类别不均衡的问题;
5.很多标注信息非人工标注,导致标注信息不准确。
解决方案
经过任务分析,我们最终采用了目标检测 多目标跟踪的解决思路。包含检测器设计,深度度量学习算法设计与多目标跟踪算法实现三部分。
Detector
在检测部分,我们采用Cascade Rcnn[3]作为我们的baseline,并设计添加FPN[5]结构与采用Guided anchoring[6]用于生成高质量的Anchor,为了进一步提升性能,我们在backbone中引入可变形卷积[4]。
为了训练检测器,我们对比在所有视频和只在有人工标注信息的视频中抽取帧制作训练集与验证集。实验结果如下:
数据集:mAP(%)
所有视频:25.9
人工标注视频:27.3
Metric learning
为了解决遮挡,消失重现时再识别的问题。我们基于Ranked list[7]损失设计了新的Metric learning损失函数以保证较好的类间区分能力及特征稳定性。主要改进点为:
1.图像对约束中为负样本对设置优化目标为归一化向量之间的最大距离;
2.在负样本损失中为负样本根据距离值添加指数权重,以利用更多困难负样本信息。
最后将SoftMax损失与设计的Metric learning损失结合作为最终的损失函数。
为了训练深度度量学习模型,我们从每个目标轨迹中采样16个样本图像,并按照7:2:1的比例划分Train、Gallery、Query数据集,然后分别采用ResNet50与IBNNet-A-50[8]进行实验。为了证明所提出损失的有效性,同时在行人重识别数据集上与SoftMax及Triplet loss进行对比。实验表明,提出的损失函数可以取得较好的表现。
Multi-Class Multi-Object Tracking
为了得到每个目标的轨迹,以实现视频目标检测任务。基于设计的检测器及Metric learning损失训练的再识别模型,我们设计了二阶段的多目标跟踪算法。
第一阶段:结合卡尔曼运动模型及再识别时目标的外观相似性,获取每个目标所形成的一些轨迹段,并采用线性插值填补缺失的检测。
第二阶段:根据每个轨迹段的类别,不同轨迹段之间时间重叠,外观相似性等信息进行轨迹段合并以得到每个目标的完整轨迹。
总结
在本次比赛中,我们对低分辨率、复杂场景下的视频目标检测问题进行了探索,设计了一个简单的目标检测,外观特征提取,多类别、多目标跟踪的系统。在视频目标检测任务中取得了相对较好的表现。
参考文献
[1]Video Relation Understanding - ACMM2020 Grand Challenge.
[2]Thomee B,Shamma D A,Friedland G,et al.YFCC100M:The New Data in Multimedia Research[J].2015.
[3]Zhaowei Cai and Nuno Vasconcelos.2017.Cascade R-CNN:Delving into High Quality Object Detection.(2017).
[4]Jifeng Dai,Haozhi Qi,Yuwen Xiong,Yi Li,Guodong Zhang,Han Hu,and Yichen Wei.2017.Deformable Convolutional Networks.(2017).
[5]Tsung Yi Lin,Piotr Dollár,Ross Girshick,Kaiming He,and Serge Belongie.2016.Feature Pyramid Networks for Object Detection.(2016).
[6]Jiaqi Wang,Kai Chen,Shuo Yang,Chen Change Loy,and Dahua Lin.2019.Region Proposal by Guided Anchoring.(2019).
[7]Wang,Xinshao,et al."Ranked list loss for deep metric learning." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2019.
[8]Pan,Xingang,et al."Two at once:Enhancing learning and generalization capacities via ibn-net." Proceedings of the European Conference on Computer Vision (ECCV).2018.
[9]F.Schroff,D.Kalenichenko,and J.Philbin.Facenet:A unified embedding for face recognition and clustering.In CVPR,2015.