计算机视觉最新进展概览(2021年6月20日到2021年6月26日)

2022-09-02 11:48:05 浏览数 (1)

1、3D Object Detection for Autonomous Driving: A Survey 自动驾驶被认为是保护人类免遭严重车祸的最有前途的方法之一。 为此,三维目标检测是感知系统的核心基础,特别是在路径规划、运动预测、避碰等方面。 一般来说,立体或单目图像中相应的三维点云已经是三维目标检测的标准布局,随着提供准确的深度信息,点云越来越普遍。 尽管已有的努力,点云上的3D目标检测仍然处于起步阶段,原因是点云本质上高度稀疏和不规则,相机视图和激光雷达鸟瞰图之间的不对齐视图的模态协同,遮挡和规模变化在长距离等。 近年来,在三维目标检测方面取得了深刻的进展,有大量的文献正在研究这一视觉任务。 因此,我们将全面回顾该领域的最新进展,涵盖所有主要主题,包括传感器、基本原理和最新的最先进的检测方法及其优缺点。此外,我们将介绍度量并提供流行公共数据集的定量比较。 未来工作的途径将在对调查工作进行深入分析后审慎地确定。 最后,对本文进行了总结。 2、One Million Scenes for Autonomous Driving: ONCE Dataset 当前的自动驾驶感知模型因严重依赖大量注释数据来覆盖不可见的案例和解决长尾问题而臭名昭著。 另一方面,从未标记的大规模收集数据中学习、逐步自我训练的强大识别模型越来越受到关注,可能成为下一代行业级强大、鲁棒的自动驾驶感知模型的解决方案。 然而,研究领域普遍存在着现实场景中必不可少的数据不足的问题,这阻碍了未来全/半/自我监督的三维感知方法的探索。 在本文中,我们介绍了用于自动驾驶场景的三维目标检测的ONCE(一百万场景)数据集。 ONCE数据集包括100万个激光雷达场景和700万个相应的相机图像。 数据来自144个驾驶小时,比现有最大的3D自动驾驶数据集(如nuScenes和Waymo)长20倍,数据来自不同的地区、时间段和天气条件。 为了便于未来利用无标记数据进行3D检测的研究,我们另外提供了一个基准,在此基准上我们在ONCE数据集上再现和评估各种自我监督和半监督方法。 我们对这些方法进行了广泛的分析,并提供了与使用数据规模相关的有价值的观察结果。 3、SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous Driving 为了促进一个真实的、不断发展和可扩展的自动驾驶系统,我们提出了一个大规模的基准,通过学习原始数据,对不同的自我监督和半监督方法进行标准化评估,这是迄今为止第一个也是最大的基准。 现有的自动驾驶系统严重依赖“完美的”视觉感知模型(如检测),这些模型使用大量标注数据进行训练,以确保安全。 然而,在部署一个强大的自动驾驶系统时,要对所有场景和环境(例如夜晚、极端天气、城市)都精心标注是不现实的。 基于自监督和半监督学习的强大发展,通过协同开发大规模无标记数据和少量标记数据学习鲁棒检测模型是一个很有前途的方向。 现有的数据集(如KITTI、Waymo)要么只提供少量的数据,要么覆盖了有限的领域,并进行了完整的注释,阻碍了对大规模预训练模型的探索。 在这里,我们发布了一个用于自动驾驶的大规模目标检测基准,名为SODA10M,包含1000万张未标记图像和20K张标记了6个代表性目标类别的图像。 为了提高多样性,图像每10秒采集一次,在32个不同的城市中,在不同的天气条件下,时间段和场景。 我们提供了广泛的实验和深入的分析现有的监督的最先进的检测模型,流行的自我监督和半监督方法,以及一些关于如何开发未来的模型的见解。 4、MODETR: Moving Object Detection with Transformers 运动目标检测(MOD)是自动驾驶系统的一项重要任务。 MOD通常通过融合了外观和运动线索的双流卷积结构处理,而没有考虑空间或运动特征之间的相互关系。 在本文中,我们通过跨越空间流和运动流的多头注意机制来解决这个问题。 我们建议MODETR; 一个运动物体检测Transformer网络,包括空间和运动形态的多流变压器编码器,和一个物体变压器解码器,使用集合预测产生运动物体的边界盒。 整个体系结构使用双向损耗进行端到端训练。 本文探讨了将运动线索与Transformer模型结合的几种方法,包括双流RGB和光流方法,以及利用序列信息的多流体系结构。 为了整合时间信息,我们提出了一种新的时间位置编码(TPE)方法来扩展空间位置编码(SPE)。 我们将为此探索两种架构选择,即在速度和时间之间实现平衡。 为了评估我们的网络,我们在KITTI MOD[6]数据集上执行MOD任务。 结果表明,显著的5%地图的Transformer网络MOD超过了最先进的方法。 此外,提出的TPE编码比SPE基线提供了10%的mAP改进。 5、Multi-Modal 3D Object Detection in Autonomous Driving: a Survey 在过去的几年里,我们见证了自动驾驶的快速发展。 然而,由于复杂而动态的驾驶环境,实现完全自主仍然是一项艰巨的任务。 因此,自动驾驶汽车配备了一套传感器,以进行稳健和准确的环境感知。 随着传感器的数量和类型不断增加,将它们结合以获得更好的感知正成为一种自然趋势。 到目前为止,还没有深入研究基于多传感器融合的感知。 为了弥补这一差距并推动未来的研究,本研究致力于回顾最近基于融合的3D检测深度学习模型,这些模型利用了多个传感器数据源,特别是摄像机和激光雷达。 在本次调查中,我们首先介绍了自动驾驶汽车常用传感器的背景,包括它们常用的数据表示,以及针对每种传感器数据开发的目标检测网络。 接下来,我们将讨论一些用于多模态3D目标检测的流行数据集,特别关注每个数据集中包含的传感器数据。 然后从融合定位、融合数据表示和融合粒度三个方面对近年来的多模态三维检测网络进行了深入的综述。 经过详细的回顾,我们讨论了存在的挑战,并指出了可能的解决方案。 我们希望我们详细的回顾可以帮助研究人员在多模态三维目标检测领域开展研究。

0 人点赞