文章:3D Object Detection for Autonomous Driving: A Survey
作者:Rui Qian, Xin Lai, and Xirong Li
编译:点云PCL
本文仅做学术分享,如有侵权,请联系删除。内容如有错误欢迎评论留言,未经允许请勿转载!
摘要
自动驾驶被认为是最有前途的领域,三维目标检测是自动驾驶感知系统的核心基础,特别是在路径规划、运动预测、碰撞避免等方面。通常,具有相应三维点云的立体/单目图像已经是三维目标检测的标准方法,其中基于点云的三维目标检测也是越来越普遍,因为点云能够提供了准确的深度信息。但由于点云的稀疏性和不规则性,以及相机视角与激光雷达鸟瞰视角之间的错位导致的模态协同效应、远距离遮挡和尺度变化等原因,点云三维目标检测仍处于起步阶段,随着大量文献的研究,三维目标检测已经取得了长足的进展。因此,我们全面回顾了该领域的最新进展,包括传感器、基础知识和最新最先进的检测方法及其优缺点。此外,文章还引入了度量标准,并对常见的公共数据集进行了定量比较。
介绍
什么是三维物体检测?三维目标检测是从三维传感器数据中检测物理对象,估计三维边界盒,并指定特定的类别。三维目标检测是三维场景感知和理解的核心。随着各种类型的3D传感器的出现,成千上万的下游应用,如自动驾驶、管家机器人和虚拟增强现实等如雨后春笋般涌现。通常,通常存在三种类型的三维表示,包括点云、mesh网格、体素网格,其中点云在许多情况下是首选表示方法。点云既不像由大量面组成的网格那样消耗存储空间,也不像体积网格那样由于量化而丢失原始几何信息,而且点云接近原始激光雷达传感器数据。
三维目标检测领域论文发布数量 2009年至2019年的出版物数量不断增加。
3D目标检测已经取得了显著的进展,但是到目前为止,它仍然落后于2D目标检测。三维目标检测是利用精确的几何、形状和比例信息来检测特定类别的视觉对象:三维位置、方向和占用体积,为机器提供更好的环境理解,同时也带来了困难的技术挑战。一般认为,卷积神经网络成功的关键是在密集规则的数据中利用空间局部相关性。然而,直接对点云应用CNN必然导致形状信息的丢失和点排序的方差。在此基础上,本文仔细分析了目前最新的三维目标检测方法。但是同样重要的是,现代汽车驾驶系统在很大程度上依赖于深度学习。然而,深度学习方法已经被证明是容易被伪造的。因此,这给自动化行业带来了固有的安全风险(例如一些不利条件和盲点等)。最终,3D目标检测方面的对抗性攻击基本上还处于初级阶段。
三维数据的三种常见的表示方法。
主要内容
传感器
一般来说,最常用的传感器可分为两类:被动传感器和主动传感器。业界专家之间正在进行的辩论是,是仅仅为车辆配备摄像系统(没有激光雷达),还是将激光雷达与车载摄像系统一起部署。目前,Waymo、Uber和Velodyne都支持LiDAR,而特斯拉则支持仅装配摄像的汽车系统。鉴于相机被认为是被动传感器的典型代表之一,而激光雷达被认为是主动传感器的代表,这里首先介绍了被动传感器和主动传感器的基本概念,然后以相机和激光雷达为例讨论了它们是如何服务于自动驾驶系统的。
不同传感器之间的优势和劣势
被动传感器中单目相机具有信息丰富的颜色和纹理属性、更好的路标文本视觉识别、高帧速率和可忽略不计的成本等优点,然而,它缺乏深度信息,这对于真实世界中准确的位置估计至关重要。为了克服这一点,立体相机使用匹配算法来对齐左右图像中的对应关系以进行深度恢复。虽然相机已经显示出作为一个可靠的视觉系统的潜力,但作为一个独立的系统是远远不够的。具体来说,在夜间亮度较低或出现下雨天气的情况下,相机容易降低其精度。因此,特斯拉必须使用辅助传感器,以防摄像头系统出现故障。
主动传感器中激光雷达(光探测和测距)是一种具有透镜、激光和探测器三个基本组件的点对点发射设备,它会发出光脉冲,这些光脉冲将以三维点的形式从周围环境中反射出来,称为“点云”。高稀疏性和不规则性以及缺乏纹理属性是点云的主要特征,它与图像阵列有很好的区别。激光雷达的波长稳定性容易受到温度变化的影响,而不利天气(如雪或雾)容易导致激光雷达探测器的信噪比(信噪比)较差。激光雷达的另一个问题是部署成本高。
坐标系转换
无论是基于多模态融合的方法还是基于点云的方法,坐标变换贯穿始终。这里不打算涉及超出本调查范围的非常具体的数学推导,只给出其基本概念,因为它确实是预处理(例如,数据扩充)的必要前提。由于现有的研究大多是基于KITTI数据集的,因此我们将以KITTI数据集为例来介绍适用于KITTI数据集的主要原则。通常,激光雷达和相机坐标系定义为:1)激光雷达坐标:x=向前,y=向左,z=向上。2) 相机坐标:x=右,y=下,z=前。
三维目标检测是从三维传感器数据中检测物理对象,估计三维边界盒,并指定特定的类别。此图是在激光雷达坐标中。
三维目标检测方法
二维目标检测在一定程度上促进了三维目标检测的发展。如图所示,根据输入数据的模态,3D目标检测方法可以分为基于单目/立体图像、基于点云和基于多模态融合的方法。需要注意的是,基于点云的方法在三维目标检测中占主导地位,基于学习的方法可以进一步分为基于多视图的方法、基于体素的方法、基于点云的方法和基于点云体素的方法。目前,基于多模态融合的方法已经越来越流行,但是利用不同领域(即图像和点云)的融合作用是非常重要的。为了明确区分不同的基于多模态融合的方法,我们定义了两类新的融合策略:基于序列融合的方法和基于并行融合的方法。文章中介绍了基于单目/立体图像的方法、基于点云的方法和基于多模态融合的方法,并按照每种方法出现的时间顺序进行了介绍。在其他方法的基础上,提出了基于多模态融合的方法。
A.基于单目/立体图像的方法
这些方法与三维中的二维目标检测方法在核心方法上最为相似,仅以单目/立体图像作为输入来预测三维目标实例。通常有三种方法:基于模板匹配的方法和基于几何特性的方法,以及基于图像的伪激光雷达方法。
基于模板匹配的方法。这些方法通过对三维样本进行详尽的采样和评分,作为代表性模板,易于进行二维/三维匹配。
基于几何特性的方法。这些方法不需要大量的样本来实现高召回率,而是直接从精确的二维边界框开始,根据经验观察得到的几何特性粗略估计三维姿态。
基于伪激光雷达的方法。这些方法首先对图像进行深度估计,然后利用现有的深度图基于点云的方法。
基于单目/立体图像的方法的发展:1)模板匹配,2)几何特性,3)伪激光雷达。图中探测器:3DOP[35,55],Mono3D[27],Deep MANTA[28],Deep3DBox[29],GS3D[31],Stereo R-CNN[33],MF3D[30],Mono3D PLidar[32]。
B.基于点云的方法
CNNs的本质是稀疏交互和权值共享,其已被证明能够有效地利用正则域中的空间局部相关性,即欧氏结构,通过中心像素与其相邻像素的加权和。然而,CNNs不适合在不规则域中表示数据的情况。由于点云是不规则和无序的,直接对其进行卷积会遭受“形状信息的丢弃和点排序的方差”。所以基于点云的方法可以总结为:基于多视图的方法、基于体素的方法、基于点云的方法和基于点云表示学习的基于点云体素的方法。
基于多视图的方法。这些方法首先将稀疏点云转换为前视图或鸟瞰视图的方式。为了利用CNNs和标准的2D目标检测,这个想法是直观和简单的。
基于体素的方法。这些方法通常将不规则点云转化为稠密体素表示方法,通过三维卷积神经网络(3D-CNNs)有效地提取点特征进行三维检测。基于体素的方法计算效率高,但由于离散化过程中的信息丢失,导致细粒度定位精度下降。
基于点云的直接法。这些方法通常使用原始点云,利用两种类型的方法:PointNet( )及其变体或图形神经网络(GNNs)。通常,它们尽可能保留原始点云的几何图形。然而,与体积网格相比,三维空间中的点检索不利于高效的硬件实现。
PointNet( )以分层方式递归应用PointNet。密度自适应层,即多尺度分组(MSG)和多分辨率分组(MRG),使得pointNet及其变体能够自适应地捕获点云的局部结构和细粒度模式。
基于点体素的方法。基于点体素的方法代表了从点云学习表示的一个新的发展趋势。2019年,Liu等人提出了PVConv,PVConv融合了体素和点的优点。一方面,基于体素的方法容易受到体素参数的影响,例如,低分辨率会导致粗粒度的定位精度,而高分辨率会增加立方体计算量。另一方面,基于点的方法可以很容易地保留点云的不规则性和局部性,可以选择集合抽象,提供细粒度的邻域信息。
具有代表性的三维目标检测方法
基于点云方法的发展:1)体素网格,2)点集,3)点体素混合方法的发展
C.基于多模态融合的方法
目前,用于自动驾驶的三维目标检测主要依靠激光雷达来提供信息丰富的周围环境信息。尽管精确,但由于固有的安全风险(例如,蓄意破坏、不利条件和盲点等),过度依赖单个传感器是不够明智的。此外,点云的远距离分辨率低、纹理信息差也是一个很大的挑战。所以常见自动驾驶中需要单目相机或者双目相机进行多传感器的融合,它可以同时提供精细纹理和RGB属性。不过,相机天生就有深度模糊的问题。此外,立体或单目相机比激光雷达便宜几个数量级,具有高帧速率和密集的深度图。一个有说服力的案例如图16所示,当涉及长距离时,在LiDAR模式中更难区分行人和路标。
显然,每种传感器类型都有其缺陷,融合处理被视为对失效模式的一种可能的补救措施。在多模融合在困难条件下提供冗余,而不仅仅是互补的。尽管利用协同效应是一个引人注目的研究热点,但在目前的错位视角下,整合两种传感器的优点,即相机视角和激光雷达鸟瞰视角,仍然是不可忽视的
两种常见的传感器融合的方法:前融合和后融合
基于序列融合的方法。这些方法以顺序方式利用多阶段特征,其中当前特征提取严重依赖于前一阶段
基于并行融合的方法。这些方法在特征空间中融合模式,得到一个多模态的表示,然后输入到有监督的学习中去
基于多模态融合方法的发展:1)RoI融合,2)像素融合。
国内外三维目标检测技术的综合比较
D.研究的挑战和机遇
三维目标检测的未来发展方向应在先前文献回顾的基础上阐述。
1) 首先,由于深度信息的缺乏,基于图像的方法与现有的基于LiDAR的方法还存在着很大的差距,这对于精确的3D感知具有重要意义。立体相机或单目相机比激光雷达便宜几个数量级,可以获得有区别的纹理信息。此外,在发生故障的情况下,有一个备用传感器可以避免过度依赖单个传感器的安全风险。为此,基于图像的方法仍然是一个引人注目的研究热点。
2) 第二,多模态融合是一种日益流行的趋势。直观地说,多模态融合应该在获得更多源信息时产生更好的结果。然而,目前基于多模态融合的方法还远远落后于基于点云的方法。事实上,鉴于观点不一致,利用多传感器的融合是非常重要的。此外,同步和校准所有传感器以避免随时间漂移也对基于融合的方法的应用提出了巨大挑战。如何将两个世界中最好的结合在一起仍然是一个棘手的问题,但在很大程度上尚未探索。
3) 第三,提出了基于非欧几里德数据推理的广义神经网络,并在分类和分割任务中证明了其有效性。
4) 第四,自从Yan等人提出第二种方法以来,3D卷积并不是延迟的瓶颈。因此,基于体素的方法往往更注重精度的提高。同时,基于点的方法虽然计算量大,但更容易捕获细粒度语义。同样需要注意的是,与基于体素的方法相比,现有的基于点的两阶段方法在面对相当多的点时的性能显著下降。基于点体素的方法(如PV-RCNN,SA-SSD)可能是目前最有前途的研究方向之一,仍有许多工作要做。
5) 最后,伪激光雷达确实为处理图像数据提供了启示,拓宽了源信息的范围。另外,激光雷达与伪激光雷达的融合也是一个值得尝试的新方向。最终,随着三维目标检测技术的不断发展,主流计算机视觉界不应放弃三维目标检测中的对抗性攻击。
总结
近年来,三维目标检测技术取得了令人瞩目的成就。本文调查了最新的具有代表性的目标检测,分析其利弊。基于传感器模态:基于单目/立体图像的方法、基于点云的方法和基于多模态融合的方法。此外,从表示学习的角度将基于点云的方法分为基于多视图、基于体素、基于点和基于点体素的方法。文章中还提供了常用的评价指标,在自动驾驶的环境下三维目标检测的演变,以及对现有技术的全面比较对比和分析。