1、A Dataset And Benchmark Of Underwater Object Detection For Robot Picking
水下目标检测技术已引起了人们的广泛关注。 然而,由于几个挑战,这仍然是一个未解决的问题。 我们通过应对以下挑战,使之更加现实。 首先,目前可用的数据集基本上缺乏测试集注释,导致研究者必须在自分测试集(来自训练集)上与其他sota进行比较。 训练其他方法会增加工作量,不同的研究人员划分不同的数据集,导致没有统一的基准来比较不同算法的性能。 其次,这些数据集也存在其他缺点,如相似图像过多或标签不完整。 针对这些挑战,我们在对所有相关数据集进行收集和重新标注的基础上,引入了一个数据集——水下目标检测(detection Underwater Objects, DUO)和相应的基准。 DUO包含了多种多样的水下图像,并有更合理的注释。 相应的基准为学术研究和工业应用提供了SOTAs(在mmddetection框架下)的效率和准确性指标,其中JETSON AGX XAVIER用于评估检测器速度,以模拟机器人嵌入式环境。
2、AFAN: Augmented Feature Alignment Network for Cross-Domain Object Detection
无监督域自适应目标检测是一个具有挑战性的问题,许多实际应用。 不幸的是,它受到的关注远远少于监督目标检测。 试图解决这一任务的模型往往缺乏带注释的训练样本。 此外,现有的特征对齐方法不足以学习域不变表示。 为了解决这些局限性,我们提出了一种新的增强特征对齐网络(AFAN),它将中间域图像生成和域对抗训练集成到一个统一的框架中。 提出了一种中间域图像生成器,利用自动生成软域标签的域对抗训练增强特征对齐。 合成的中间域图像逐步弥合了域的分歧,增强了标注的源域训练数据。 设计了一种特征金字塔对齐方法,并利用相应的特征鉴别器对不同语义层次的多尺度卷积特征进行对齐。 最后,我们引入区域特征对齐和实例鉴别器来学习对象建议的领域不变特征。 我们的方法在类似和不同领域适配的标准基准上显著优于最新的方法。 进一步的实验验证了每个组件的有效性,并证明了所提出的网络可以学习领域不变表示。
3、We Can Always Catch You: Detecting Adversarial Patched Objects WITH or WITHOUT Signature
最近,基于深度学习的目标检测被证明容易受到对抗的补丁攻击。 使用特制补丁的攻击者甚至可以在现实世界中躲避最先进的个人探测器,例如YOLO。 这种攻击可以带来严重的安全威胁,如逃离监控摄像头。 本文深入探讨了对抗补丁攻击对目标检测的检测问题。 首先,我们从可视化解释的角度识别现有对抗补丁的可利用签名。 提出了一种基于签名的快速防御方法,并验证了该方法的有效性。 其次,我们设计了一种改进的补丁生成算法,以揭示基于签名的方法可能被未来出现的技术所绕过的风险。 新生成的对抗补丁能够成功规避提出的基于签名的防御。 最后,我们提出了一种新的基于内部内容语义一致性而不是任何特定攻击的先验知识的签名独立检测方法。 基本的直觉是,对抗性对象可以局部出现,但在输入图像中全局消失。 实验表明,该方法能够有效地检测现有的和改进的攻击。 它还被证明是一种通用的方法,可以在没有任何特定于攻击的先验知识的情况下检测不可预见的甚至其他类型的攻击。 本文提出的两种检测方法可以在不同的场景下使用,我们认为结合它们可以提供全面的保护。
4、Distilling Image Classifiers in Object Detectors
知识精馏是一种简单而有效的方法,通过利用更强大的教师的知识来提高紧凑的学生网络的性能。 然而,知识提炼文献仍然局限于学生和教师处理相同任务的场景。 在这里,我们不仅研究跨架构的知识传递问题,而且还研究跨任务的知识传递问题。 为此,我们研究了目标检测的案例,并没有遵循标准的检测器到检测器的精馏方法,而是引入了一个分类器到检测器的知识转移框架。 特别地,我们提出了利用分类教师来提高检测器的识别精度和定位性能的策略。 我们在几个具有不同骨干的探测器上的实验证明了我们的方法的有效性,使我们能够超越最先进的检测器器对检测器的蒸馏方法。
5、DETReg: Unsupervised Pretraining with Region Priors for Object Detection
无监督预训练最近被证明对计算机视觉任务(包括目标检测)是有益的。 然而,以前的自我监督方法并不是设计来处理检测的一个关键方面:定位目标。 在这里,我们提出了DETReg,一种无监督预处理方法,用于使用区域先验的变压器的目标检测。 基于目标检测的两项任务:定位和分类,我们结合了两种互补信号进行自我监控。 对于目标定位信号,我们使用了来自现有的无监督区域建议方法——选择性搜索的伪地面真实目标边界框,该方法不需要训练数据,可以在高召回率和非常低的精度下检测目标。 分类信号来自对象嵌入损失,鼓励不变对象表示,从对象类别可以推断。 我们展示了如何结合这两个信号训练变形DETR检测体系结构从大量的未标记数据。 DETReg在MS COCO和PASCAL VOC等标准基准上改进了竞争性基线和以前的自我监督方法的性能。 DETReg在MS COCO上仅使用1%、2%、5%和10%的标记数据进行训练时,在低数据方案上也优于以前的监督和无监督基线方法。 对于代码和预训练模型,请访问此https URL的项目页面
6、Shuffle Transformer: Rethinking Spatial Shuffle for Vision Transformer
最近,基于windows的transformer在非重叠局部窗口内计算自注意,在图像分类、语义分割和目标检测方面显示出了很好的结果。 然而,对于提高表征能力的关键因素跨窗口连接的研究却较少。 在这项工作中,我们重新审视了空间混乱,作为一种建立窗户之间联系的有效方式。 因此,我们提出了一种新的视觉转换器Shuffle transformer,该转换器通过修改两行代码即可实现,效率高。 此外,引入深度卷积来补充空间shuffle以增强邻居窗口连接。 所提出的架构在包括图像级分类、目标检测和语义分割等广泛的视觉任务上取得了优异的性能。 代码将被发布以供复制。
7、Rethinking Training from Scratch for Object Detection
ImageNet训练前初始化是目标检测的实际标准。 他等人发现,可以从头开始训练检测器(随机初始化),同时需要一个较长的训练计划和适当的归一化技术。 在本文中,我们探索了在目标数据集上直接进行预处理来进行目标检测。 在这种情况下,我们发现被广泛采用的大尺寸调整策略,例如将图像大小调整为(1333,800)对于微调很重要,但在训练前没有必要。 具体来说,我们提出了一种新的训练管道来进行目标检测,利用目标数据集中的低分辨率图像来对检测器进行预训练,然后将其加载到高分辨率图像的微调中。 利用该策略,我们可以在训练前使用大浴池尺寸的批处理标准化(BN),它也可以应用于GPU内存非常有限(11G)的机器上。 我们称其为直接检测预处理训练,也简称为直接预处理训练。 实验结果表明,在COCO数据集上,直接预处理比ImageNet预处理提前了11倍以上的时间,甚至提高了1.8倍的map。 此外,我们发现直接的预培训也适用于基于变压器的骨干,如Swin变压器。 代码将可用。
8、Oriented Object Detection with Transformer
可旋转目标检测(DETR)已经取得了一个竞争性能传统的检测器,如Faster R-CNN。 然而,对于更具有挑战性的面向任意目标的检测问题,DETR的潜力仍然很大程度上未被探索。 我们首次尝试并实现了基于端到端网络的面向对象检测转换器(O2DETR)。 O2DETR的贡献包括:1)我们为面向目标检测提供了一个新的见解,通过应用Transformer直接而有效地定位目标,而不像传统检测器那样需要繁琐的旋转锚点过程; 2)设计了一种简单高效的变压器编码器,用深度可分离卷积代替注意机制,显著降低了原变压器多尺度特征的存储和计算成本; 3)我们的O2DETR可以成为面向目标检测领域的另一个新的基准,它比Faster R-CNN和RetinaNet实现了高达3.85的mAP改进。 我们简单地微调安装在级联架构的O2DETR上的头,并在DOTA数据集中获得优于SOTA的性能。
9、Self-Supervision & Meta-Learning for One-Shot Unsupervised Cross-Domain Detection
深度检测模型在受控环境下非常强大,但在不可见的领域应用时却显得脆弱和失败。 所有改进该问题的自适应方法都是在训练时获取大量的目标样本,这种策略不适用于目标未知和数据无法提前获得的情况。 例如,考虑监控来自社交媒体的图像源的任务:由于每一张图像都是由不同的用户上传的,它属于不同的目标领域,这在训练期间是不可能预见到的。 我们的工作解决了这一设置,提出了一个目标检测算法,能够执行无监督适应跨领域,只使用一个目标样本,在测试时间。 我们引入了一个多任务体系结构,它通过迭代地解决一个自我监督的任务,一次性适应任何传入的样本。 我们进一步利用元学习模拟单样本跨域学习集,更好地匹配测试条件。 此外,交叉任务的伪标记程序允许聚焦于图像前景,增强了自适应过程。 对最新的跨域检测方法的全面基准分析和详细的消融研究显示了我们的方法的优势。