关注并星标
从此不迷路
计算机视觉研究院
公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式
论文地址:http://www.jzus.zju.edu.cn/article.php?doi=10.1631/FITEE.2000567
计算机视觉研究院专栏
作者:Edison_G
今天看了一篇自己研究院出品的文章,虽然21年中的paper,但是技术还是挺有趣,今天我就拿出来分享说一说。
01
技术简要
目标检测是计算机视觉领域最热门的研究方向之一,已经在学术界取得了令人瞩目的进展,并在业界有许多有价值的应用。但是,主流的检测方法仍然存在两个缺点:
- 即使使用大量数据训练好的模型仍然不能普遍用于不同类型的场景;
- 一旦部署模型,它就不能随着积累的未标记场景数据自主进化。
为了解决这些问题,在视觉知识理论的启发下,研究者提出了一种新颖的场景自适应进化无监督视频目标检测算法,可以通过目标组的概念减少场景变化的影响。
首先通过预训练的检测模型从未标记的数据中提取大量候选目标。其次,通过对候选进行聚类来构建目标概念的视觉知识字典,其中每个聚类中心代表一个目标原型。第三,研究者们研究了不同簇之间的关系和不同组的目标信息,并提出了一种基于图的组信息传播策略来确定目标概念的类别,可以有效区分正负样本。使用这些伪标签,就可以轻松地微调预训练模型。
最终通过不同的实验验证了所提方法的有效性,取得了显着的改进!
02
背景简述
最先进的图像目标检测方法主要分为两组:两阶段方法和一阶段方法。典型的两阶段算法有R-CNN、fast R-CNN、faster RCNN、R-FCN、FPN和Libra R-CNN,它们由区域候选、区域识别和位置组成。一阶段方法将检测转换为回归问题。SSD、YOLO、RetinaNet、CornerNet和FreeAnchor直接预测对象和对象类的位置或角点。
在这项研究中,YOLO-v2作为基础检测器。视频目标检测类似于图像目标检测。唯一的区别是目标检测任务中使用了时间信息。现有的方法可以根据它们对时间信息的应用分为两类:特征级学习和后处理策略。
大多数视频检测方法不能直接检测新场景中的目标。这些检测器应该使用新的数据集进行重新训练。在这种情况下,一些研究人员提出了无监督视频检测算法。这些方法的主要策略是无监督特征学习、目标挖掘、匹配、跟踪和域适应。例如,Croitoru等人提出了一种基于视频主成分分析(PCA)的无监督目标挖掘策略,以生成软掩码来训练检测器。提出了一种跟踪策略以获得伪标签,用于在视频流中训练基于CNN的目标检测器。还有研究者结合自定进度的域适应和分数轨迹跟踪策略来自动挖掘目标域样本以进行无监督视频目标检测。今天说的新方法是一种场景自适应进化无监督视频目标检测算法。
03
新框架分析
所提出方法的框架如上图所示。它由PDG、G-GIP和检测组成。
首先,原始数据用于训练初始检测模型;其次,利用新的场景数据通过PDG策略建立目标的视觉知识表示。每一帧新的场景数据被发送到初始检测模型,用于提取目标候选和相应的特征。所有提取的特征与框尺度信息相结合,通过k-means算法进行聚类,以构建目标原型字典。每个原型都是相应目标组的中心;第三,提出了基于图的组信息传播模型,创建正样本类别,然后从新的场景数据集中挖掘具有伪标签的新训练样本;最后,挖掘的数据集用于微调检测模型以进行新场景检测。
上图:目标候选的组内置信度传播和组间信息传播
每个object proposal的置信度可以通过初始检测模型得到。置信度值越大,目标候选越有可能是正样本。计算每组的平均值和标准偏差以供进一步分析。置信度分布如下图所示。
如上图所示,右上角组的置信度均值较大,标准差较小,说明该组包含大量正样本。在这种情况下,提出组内置信传播来选择初始正样本组。首先,应用每个目标的置信度平均值来表示每个组。然后,将高置信度组定义为初始正样本组。
Framework of the graph network (NN is the modification subnet)
04
实验及可视化
Residential-K dataset的检测结果
© THE END
转载请联系本公众号获得授权
计算机视觉研究院学习群等你加入!
ABOUT
计算机视觉研究院
计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!
VX:2311123606
往期推荐