1、SIMPL: Generating Synthetic Overhead Imagery to Address Zero-shot and Few-Shot Detection Problems 近年来,深度神经网络(DNNs)在空中(如卫星)图像的目标检测方面取得了巨大的成功。 然而,一个持续的挑战是训练数据的获取,因为获取卫星图像和在其中标注物体的成本很高。 在这项工作中,我们提出了一个简单的方法-称为合成目标植入(SIMPL) -容易和快速地生成大量合成开销训练数据的自定义目标对象。 我们演示了在没有真实图像可用的零射击场景下使用SIMPL合成图像训练dnn的有效性; 以及少量的学习场景,在那里有限的现实世界的图像可用。 我们还通过实验研究了SIMPL对一些关键设计参数的有效性的敏感性,为用户设计定制目标的合成图像提供了见解。 我们发布了SIMPL方法的软件实现,这样其他人就可以在其基础上构建,或者将其用于自己的定制问题。 2、Monocular 3D Object Detection: An Extrinsic Parameter Free Approach 单目三维目标检测是自动驾驶中的一项重要任务。 在地面上存在自我-汽车姿势改变的情况下,这很容易处理。 这是常见的,因为轻微波动的道路平滑和斜坡。 由于在工业应用中缺乏洞察力,现有的基于开放数据集的方法忽略了摄像机姿态信息,不可避免地会导致探测器受摄像机外部参数的影响。 在大多数工业产品的自动驾驶案例中,物体的扰动是非常普遍的。 为此,我们提出了一种新的方法来捕获摄像机姿态,以制定免于外部扰动的探测器。 具体地说,该框架通过检测消失点和视界变化来预测摄像机外部参数。 设计了一种变换器来校正潜势空间的微扰特征。 通过这样做,我们的3D探测器独立于外部参数变化工作,并在现实情况下产生准确的结果,例如,坑洼和不平坦的道路,而几乎所有现有的单目探测器无法处理。 实验表明,在KITTI 3D和nuScenes数据集上,我们的方法与其他先进技术相比具有最佳性能。 3、Focal Self-attention for Local-Global Interactions in Vision Transformers 最近,视觉Transformer及其变体在各种计算机视觉任务中显示出了巨大的前景。 通过自我关注捕捉短期和长期视觉依赖的能力可以说是成功的主要来源。 但它也带来了挑战,由于二次计算开销,特别是高分辨率视觉任务(例如,目标检测)。 在本文中,我们提出了焦点自关注,这是一种结合了细粒度局部交互和粗粒度全局交互的新机制。 使用这种新机制,每个令牌都以细粒度处理最近的令牌,但以粗粒度处理远的令牌,因此可以有效地捕获短期和长期的可视依赖关系。 随着焦点自注意,我们提出了一种新的视觉变压器模型,称为Focal Transformer,在一系列公共图像分类和目标检测基准上实现了优于目前最先进的视觉变压器的性能。 特别是我们的Focal Transformer模型,中等尺寸为51.1M,较大尺寸为89.8M,在2224x224分辨率下的ImageNet分类精度分别达到83.5和83.8 Top-1。 使用Focal transformer作为骨干,我们获得了与目前最先进的Swin transformer相比的一致和实质的改进,这6种不同的目标检测方法采用标准的1倍和3倍计划训练。 我们最大的Focal Transformer在COCO mini-val/test-dev上产生58.7/58.9 box mAPs和50.9/51.3 mask mAPs,在ADE20K上产生55.4 mIoU用于语义分割,在三个最具挑战性的计算机视觉任务上创建新的SOTA。 4、AutoFormer: Searching Transformers for Visual Recognition 最近,基于Transformer的模型在图像分类和检测等视觉任务中显示出了巨大的潜力。 然而,Transformer网络的设计是具有挑战性的。 已经观察到,深度、嵌入尺寸和头部的数量在很大程度上影响视觉变形器的性能。 以前的模型基于手工手工配置这些维度。 在这项工作中,我们提出了一个新的一次性架构搜索框架,即AutoFormer,专门用于视觉转换器搜索。 在超网训练期间,自动前缠绕不同块的重量在同一层。 受益于该战略,训练有素的超级网络允许数千个子网得到非常好的训练。 具体来说,这些继承自超级网络权重的子网的性能与那些从头开始重新训练的子网相当。 此外,搜索模型,我们参考的AutoFormers,超过了最近的先进水平,如ViT和DeiT。 特别是AutoFormer-tiny/small/base在ImageNet上实现了74.7%/81.7%/82.4%的top-1精度,分别为5.7M/22.9M/53.7M参数。 最后,我们通过提供下游基准和蒸馏实验的性能来验证自动成形机的可移植性。 代码和模型可以在https://github.com/microsoft/AutoML上找到。 5、CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows 我们提出了CSWin Transformer,一个高效和有效的基于Transformer的骨干通用视觉任务。 Transformer设计中的一个具有挑战性的问题是,全局自关注的计算成本非常高,而局部自关注常常限制每个令牌的交互字段。 为了解决这个问题,我们开发了十字窗自注意机制,用于计算平行形成十字窗的水平和垂直条纹中的自注意,每个条纹是通过将输入特征分割成等宽的条纹来获得的。 对条带宽度的影响进行了详细的数学分析,并根据变压器网络的不同层改变条带宽度,在限制计算代价的同时,实现了较强的建模能力。 我们还引入了本地增强位置编码(LePE),它比现有的编码方案更好地处理本地位置信息。 LePE自然支持任意输入分辨率,因此对于下游任务特别有效和友好。 结合这些设计和层次结构,CSWin变压器在普通视觉任务上展示了具有竞争力的性能。 具体来说,在没有任何额外训练数据或标签的情况下,它在ImageNet-1K上达到了85.4%的Top-1准确率,在COCO检测任务上达到了53.9盒AP和46.4掩码AP,在ADE20K语义分割任务上达到了51.7 mIOU,超过了之前最先进的Swin Transformer骨干 1.2, 2.0, 1.4。 在相似的FLOPs设置下,分别为 2.0。 通过在更大的数据集ImageNet-21K上进行进一步的预处理,我们在ImageNet-1K上获得了87.5%的Top-1精度,在ADE20K上获得了最先进的分割性能(55.2 mIoU)。 代码和模型将在https://github.com/microsoft/CSWin-Transformer上获得。
计算机视觉最新进展概览(2021年6月27日到2021年7月3日)
2022-09-02 11:48:00
浏览数 (1)