计算机视觉最新进展概览(2021年7月18日到2021年7月24日)

2022-04-02 09:01:18 浏览数 (1)

1、YOLOX: Exceeding YOLO Series in 2021

在这份报告中,我们介绍了YOLO系列的一些经验改进,形成了一种新的高性能检测器——YOLOX。我们将YOLO检测器转换为无锚方式,并采用其他先进的检测技术,例如解耦头部和领先的标签分配策略SimOTA,以在大范围模型中实现最先进的结果:对于只有0.91M参数和1.08G FLOPs的YOLO-Nano,我们在COCO上得到25.3%的AP,超过了NanoDet 1.8%的AP;对于YOLOv3,工业上使用最广泛的检测器之一,我们在COCO上将其提高到47.3% AP,比目前的最佳做法高出3.0% AP;为YOLOX-L大致相同数量的参数作为YOLOv4-CSP, YOLOv5-L,我们在COCO上达到50.0% AP,在特斯拉V100达到了68.9帧/秒的速度,超过YOLOv5-L 1.8%的mAP。进一步,我们使用单一YOLOX-L模型赢得了Place on Streaming Perception Challenge的第一名(CVPR 2021自动驾驶workshop)。我们希望这份报告可以为开发人员和研究人员在实际场景中提供有用的经验,我们也提供了支持ONNX、TensorRT、NCNN和Openvino的部署版本。代码已经开源。

2、Exploring Set Similarity for Dense Self-supervised Representation Learning

通过考虑空间对应关系,密集自监督表示学习在各种密集预测任务上取得了优异的性能。然而,像素级的对应往往是嘈杂的,因为有许多相似的误导性像素,例如背景。为了解决这个问题,在本文中,我们建议探索textbf{set} textbf{sim}ilarity (SetSim),用于密集自监督表示学习。由于集合包含更多的语义和结构信息,我们将像素方向的相似度学习推广到集合方向的相似度学习,以提高鲁棒性。具体来说,我们利用视图的注意特征建立相应的集合,从而过滤掉可能导致错误对应的噪声背景。同时,这些注意特征可以保持同一图像在不同视角下的一致性,缓解语义不一致。我们进一步搜索集合的交叉最近邻,并利用结构化邻域信息增强鲁棒性。经验评估表明,SetSim在目标检测、关键点检测、实例分割和语义分割方面优于目前最先进的方法。

3、You Better Look Twice: a new perspective for designing accurate detectors with reduced computations

一般的目标检测器使用强大的骨干,统一地从图像中提取特征,从而能够检测大量的目标类型。然而,在针对特定目标类型开发的目标检测应用程序中使用这种骨干可能会不必要地过度处理大量的背景。此外,它们是不可知的目标尺度,从而冗余处理所有图像区域在相同的分辨率。在这项工作中,我们引入了BLT-net,一种新的低计算的两阶段目标检测体系结构,旨在处理具有大量背景和不同尺度的目标的图像。BLT-net通过使用非常简单的第一阶段从背景中分离物体来减少计算。然后BLT-net有效地合并得到的建议,进一步减少处理后的背景,然后动态地降低它们的分辨率,以最小化计算量。得到的图像建议在第二阶段由一个高度精确的模型进行处理。我们在行人检测问题上展示了我们的架构,其中目标大小不同,图像分辨率高,目标检测需要实时运行。我们表明,我们的设计与领先的行人检测器相比,在Citypersons和Caltech数据集上减少了x4-x7倍的计算量,因为精度降低了一点。该方法可应用于背景量较大、目标尺寸变化较大的场景中,减少计算量。

4、CycleMLP: A MLP-like Architecture for Dense Prediction

本文提出了一个简单的类似于MLP的架构,CycleMLP,它是视觉识别和密集预测的通用骨干,不像现代MLP架构,例如MLP- mixer, ResMLP和gMLP,它们的架构与图像大小相关,因此在目标检测和分割中是不可实现的。与现代方法相比,CycleMLP有两个优点。(1)可以处理不同尺寸的图像。(2)利用局部窗口实现图像大小的线性计算复杂度。相比之下,之前的mlp都是二次计算,因为它们完全是空间连接。我们建立了一系列模型,这些模型超越了现有的mlp,在ImageNet-1K分类上达到了与Swin Transformer(83.3%)等最先进的Transformer(83.2%)相当的精度(83.2%),但使用了更少的参数和FLOPs。我们扩展了类MLP模型的适用性,使它们成为密集预测任务的通用主干。CycleMLP旨在为MLP模型在目标检测、实例分割和语义分割方面提供一个有竞争力的基线。特别是CycleMLP在ADE20K val上达到了45.1 mIoU,与Swin (45.2 mIoU)相当。

5、Unsupervised Detection of Adversarial Examples with Model Explanations

深度神经网络(DNNs)在各种机器学习应用中表现出了卓越的性能。然而,众所周知,DNN易受简单的对抗性扰动的影响,这会导致模型错误地对输入进行分类。在本文中,我们提出了一种简单而有效的方法来检测对抗性的例子,使用开发的方法来解释模型的行为。我们的关键观察是,添加小的、人为的难以察觉的扰动可能导致模型解释的剧烈变化,导致解释的不寻常或不规则形式。基于这一观点,我们提出了一种对敌对例子的无监督检测,使用仅在良性例子的模型解释上训练的重构网络。我们对MNIST手写数据集的评估表明,我们的方法能够以高置信度检测由最先进算法生成的对抗性例子。据我们所知,这项工作是第一次提出使用模型解释的无监督防御方法。

0 人点赞