1、Faster-LTN: a neuro-symbolic, end-to-end object detection architecture 图像对象之间的语义关系的检测是图像解释的基本挑战之一。 神经符号技术,如逻辑张量网络(LTNs),允许结合语义知识表示和推理的能力,有效地学习典型的神经网络的例子。 我们在这里提出Faster-LTN,一种由卷积主干和LTN组成的目标检测器。 据我们所知,这是在端到端训练设置中结合这两种框架的第一次尝试。 这个体系结构是通过优化一个有根据的理论来训练的,这个理论以逻辑公理的形式将标记的实例与先验知识结合起来。 实验对比表明,与传统的Faster R-CNN架构相比,该架构具有竞争力的性能。 2、Semi-supervised Learning for Dense Object Detection in Retail Scenes 零售场景的每幅图像通常包含密集的高数量的目标。 标准的目标检测技术使用完全监督的训练方法。 这是非常昂贵的,因为注释一个大型密集的零售目标检测数据集需要比标准数据集多一个数量级的工作。 因此,我们提出了半监督学习来有效地利用零售领域中大量的未标记数据。 我们采用一种流行的自监督方法,即噪声学生最初提出的目标分类的任务,密集的目标检测。 我们表明,使用无标记数据与嘈杂的学生训练方法,我们可以提高在密集的零售场景中精确检测目标的技术水平。 我们还表明,随着未标记数据数量的增加,模型的性能也会增加。 3、On Model Calibration for Long-Tailed Object Detection and Instance Segmentation 普通的目标检测模型和实例分割模型在长尾设置中存在检测频繁目标的严重偏差。 现有的方法主要在训练期间解决这个问题,例如,通过重新抽样或重新加权。 在本文中,我们调查了一个很大程度上被忽视的方法——置信度的后处理校准。 我们提出了NorCal,归一化校准用于长尾目标检测和实例分割,这是一种简单而直接的方法,通过训练样本大小重新衡量每个类的预测分数。 我们表明,单独处理后台类和对每个建议的类上的分数进行规范化是实现卓越性能的关键。 在LVIS数据集上,NorCal可以有效地改进几乎所有的基线模型,不仅在罕见类上,而且在普通类和频繁类上。 最后,我们进行了广泛的分析和消融研究,以提供我们方法的各种建模选择和机制的见解。 4、Neighbor-Vote: Improving Monocular 3D Object Detection through Neighbor Distance Voting 随着摄像头在自动驾驶等新的应用领域的不断应用,对单目图像进行三维目标检测成为视觉场景理解的重要任务。 单眼三维目标检测的最新进展主要依赖于“伪激光雷达”生成,即进行单眼深度估计并将二维像素点提升为伪三维点。 但单目图像深度估计精度不高,导致伪激光雷达点在目标内不可避免地发生位置偏移。 因此,预测的边界框位置不准确,形状变形。 在本文中,我们提出了一种新的邻域投票方法,结合邻域预测来改善严重变形的伪激光雷达点云的目标检测。 具体来说,物体周围的每个特征点形成各自的预测,然后通过投票实现“共识”。 这样可以有效地将邻居预测与局部预测相结合,实现更准确的三维检测。 为了进一步放大前景感兴趣区域(foreground region of interest, ROI)伪激光雷达点与背景点之间的差异,我们还将二维前景像素的ROI预测得分编码为相应的伪激光雷达点。 我们在KITTI基准上进行了大量的实验,以验证我们提出的方法的优点。 我们的鸟瞰图检测结果在很大程度上超过了最先进的性能,特别是“硬”水平检测。 5、VIN: Voxel-based Implicit Network for Joint 3D Object Detection and Segmentation for Lidars 提出了一种统一的神经网络结构用于三维目标检测和点云分割。 我们利用丰富的监督,从检测和分割标签,而不是只使用其中之一。 此外,基于隐式函数在三维场景和物体理解中的广泛应用,提出了一种基于单级目标检测器的扩展方法。 扩展分支以目标检测模块的最终特征图为输入,生成隐式函数,为每个点对应体素中心生成语义分布。 我们在一个大型户外数据集nuScenes-lidarseg上演示了我们的结构的性能。 我们的解决方案在三维目标检测和点云分割方面取得了与先进方法相竞争的结果,与目标检测解决方案相比,我们的附加计算负荷很小。 实验结果表明,该方法具有较好的弱监督语义切分能力。
计算机视觉最新进展概览(2021年7月4日到2021年7月10日)
2022-09-02 11:47:53
浏览数 (1)