复旦多模态 3D 检测最新成果 DeepInteraction!,融合感知算法刷新 SOTA !

2024-08-27 20:08:33 浏览数 (1)

本文中,作者提出了一种新的模态交互策略,以解决现有高性能自动驾驶系统依赖多模态融合策略进行可靠场景理解的问题。这种设计受限的基本原因是忽略了模态特定优势,最终损害了模型性能。为了解决这个问题,作者在本文中引入了一种新的模态交互策略,允许在不同的模态之间学习并维护每个模态的单个表示。 这使得在整个感知 Pipeline 中利用模态的独特特性成为可能。为了证明所提出策略的有效性,作者设计了一个名为DeepInteraction 的多模态交互框架,该框架具有多模态表示交互编码器和多模态预测交互解码器两个组成部分。 具体来说,编码器作为一个双流Transformer实现,包含专门的注意力操作用于分别在独立的模态特定表示之间交换和集成信息。作者的多模态表示学习结合了以物体为中心的精细的基于采样的特征对齐和全局密集信息传播,这对于更具挑战性的规划任务至关重要。 解码器设计为通过交替聚合来自独立表示的信息以一种统一的不关心模态的方式进行迭代优化,实现多模态预测交互。大量实验表明,所提出的框架在3D目标检测和端到端自动驾驶任务上都具有优越的性能。 作者的代码已发布在 https://github.com/fudan-zvg/DeepInteraction

I Introduction

安全自主驾驶依赖于可靠的场景感知,核心任务是定位和识别周围3D世界中的决策性物体。为增强感知能力,激光雷达和摄像头传感器在大多数当前自主车辆中同时使用,分别提供点云和RGB图像。两种模式由于其不同的感知特性而表现出自然而强烈互补作用。点云涉及必要的局部化和几何信息,表示稀疏;而图像在高分辨率下提供丰富的外观和语义信息。因此,跨模态的专门信息融合对于强大的场景感知变得至关重要。

以三维目标检测这一至关重要的感知任务为例,现有多模态三维目标检测方法通常采用一种 _模态融合_策略(图1(a))将单个模态的表示组合成 _单混合表示_。例如,PointPainting及其变体将来自图像空间的类别分数或语义特征集成到3D点云空间。AutoAlign和VFF类似地将图像表示集成到3D网格空间。最新的替代品将图像和点云特征合并到共同的鸟瞰视角(BEV)表示中。这种融合方法然而,由于其固有的局限性,在将信息融合到统一表示时可能丢弃大量模态特定的表示优势,导致其结构受限。

为克服上述局限性,本研究中引入了一种新的 多模态交互 策略,称为 **DeepInteraction **,用于将来自不同传感器的信息集成(图1(b))。作者的关键思想是学习并维护多个模态特定的表示,而不是仅推导出一个融合的表示。这种方法可以实现跨模态交互,允许信息自发性交换,同时还保留模态特定优势,且它们之间的干扰最小。具体地,作者从两个并行的特征 Backbone 中,将3D点云和2D多视图像映射到多尺度激光雷达BEV特性和摄像头全景特性。然后,作者使用一个编码器以双边方式交互异质特性,从而实现渐进的表示学习与集成。为了充分利用每个模态的表示,作者设计了一个解码器,以分阶段进行多模态预测交互,从而产生更准确的感觉结果。

作者的 贡献 可以总结如下:

(i) 作者引入了一种新的 多模态交互 策略,用于自主驾驶任务的多模态学习,解决了以前 模态融合 策略在利用模态特定信息方面的基本限制。

(ii) 作者提出了 DeepInteraction 架构,具有多模态预测交互解码器和多模态表示交互编码器,利用强大的双流Transformer架构和精心设计的交互操作。

(iii) 在具有竞争性的nuScenes数据集上的大量实验表明,作者的方法优于先前的艺术模型。除了3D目标检测外,作者还评估了提出的框架,以展示 模态交互 思想的效用,充分利用了灵活的多模态交互设计。特别是DeepInteraction 不仅可以有效地提取目标为中心的信息,以实现强大的3D目标检测能力,而且还能够构建周围环境的稠密表示,提供各种自主驾驶任务的通用解决方案。

这篇文章的初步版本(DeepInteraction [10])曾在NeurIPS 2022上以焦点演讲的形式呈现。在本文中,作者对提出的多模态交互范式在模块设计和架构扩展方面进行了进一步的升级。

(1) 作者将编码器配备了双流Transformer架构,可以同时集成同模态表示学习和对模态表示学习。与基于FFN的表示融合原设计相比,这种新设计具有更高的可扩展性和降低了计算开销。

(2) 作者用可变形注意力替代了最初用于同模态交互的独立注意力,从而实现了更灵活的接收领域和多尺度交互。

(3) 作者此外引入了LiDAR引导的平面极光注意力,可以将原始目标中心稀疏交互的底层语义以密集方式从视觉表示传播到LiDAR表示。this 通过学习BEV极光和摄像机成像列之间的固有对应关系实现。动机是提供丰富的稠密上下文以补充原始目标中心稀疏交互。

(4) 为了进一步提高运行时和内存需求,作者引入了分组稀疏注意,不损失性能,为进一步扩大作者的方法留出空间。

(5) 作者将方法的扩展应用从最初的3D目标检测转向更广泛的自动驾驶任务(例如端到端预测和规划)。

这是由于作者更高效和强大的多模态学习架构设计实现的。在这单个架构中探索这种多任务策略不仅展示了作者方法的通用适用性和可扩展性,而且提出了实际中设计自动驾驶系统的可行策略。

II Related work

单模态3D目标检测虽然自动驾驶车辆通常配备有LiDAR和多个环绕视图摄像头,但许多先前的方法仍然专注于通过利用单一传感器捕获的数据来解决3D目标检测问题。对于基于相机的3D目标检测,由于深度信息无法直接从RGB图像中获取,一些先前的工作将2D特征提升到3D空间,然后在其中进行目标检测。另一条工作路线采用了检测Transformer[22]架构。他们利用3D目标 Query 和3D-2D对应关系将3D计算集成到检测 Pipeline 中。

尽管基于相机的方法的进展迅速,但3D目标检测的最先进水平仍然受LiDAR方法主导。大多数LiDAR基础检测器在处理点云之前将点云格化为规范结构,如 Voxel , Pillar 或范围图像。由于LiDAR的采样特性,这些网格自然稀疏,因此适合Transformer设计。因此,许多方法[30, 31]将Transformer应用于点云特征提取。不同的方法将Transformer解码器或其变体用作检测Head[32, 33]。由于传感器固有的局限性,这些方法在性能方面受到很大限制。

多模态融合3D目标检测利用来自相机和LiDAR传感器的感知数据通常提供更稳健的解决方案,并带来更好的性能。这种方法已经发展成为一种有前途的方向。现有的3D检测方法通常在三个阶段之一(原始输入,中间特征和目标 Proposal )进行多模态融合。例如,Point-Painting[1]是 pioneer 输入融合方法。其主要思想是将类别得分或语义特征从二维实例分割网络中装饰到3D点云上。

为了比较,图1给出了方案比较的示意。图1:现有基于多模态融合的3D检测:

(a)将单一个性的表示融合到单个混合表示中,该表示用于进一步解码检测结果。

(b)作者的多模态交互-基于3D检测:在整个 Pipeline 中保持两种模态特定表示,其中编码器进行表示交互,解码器进行预测交互。

尽管4D-Net [35] 将融合模块放在点云特征提取器中,允许点云特征动态关注图像特征。ImVoteNet [36] 将视觉信息注入一组从原始点云抽象的3D种子点。

基于 Proposal 的融合方法 [37, 38] 独立地提取两个模态的特征,并在检测Head通过 Proposal 或 Query 聚合多模态特征。前两个类方法采用偏向3D LiDAR模态的一边融合策略,因为点云在距离和空间感知上具有优越性。相反,最后一个类别完全忽略了两个模态在表示之间的内在关联。因此,上述所有方法都无法充分挖掘两种模态,特别是它们的强烈互补性质。

此外,有些工作探索了两种模态在共享表示空间中的融合 。他们的视图转换方式 [41] 与仅使用相机的视图转换方法一样。然而,这种设计在视图转换期间利用点云的空间线索方面效果较差,可能降低摄像机BEV表示的质量。这导致在网络容量中额外需要校准这种不匹配。为了提高效率,最近的一些方法 [42, 43] 引入了稀疏机制来处理模态特征或目标 Query ,但仍然受到单一融合方式的限制。

在本工作中,作者解决了前述解决方案的各种限制,并提出了一种新颖的多模态交互策略。作者维持两个模态特定的特征表示,并在最大化挖掘其互补优势的同时,保持各自的优点,进行表示性和预测性交互。因此,这就是作者方法的关键词。

完整的自动驾驶端到端流程。与自动驾驶领域中仅关注感知任务不同,最近的方法正在探索能够同时执行从场景感知到个性化规划的端到端框架。得益于明确且可解释的中间结果,这些方法在规划任务上取得了显著的突破。然而,它们仍然局限于单一的输入模式(尤其是相机)和感知模式(例如BEV或广角视图),这阻碍了进一步的改进。相反,通过将激光雷达和相机的不同融合感知模式纳入端到端扩展的DeepInteraction ,可以实现各个评估指标上的更好性能。

与CamLiFlow [48, 49]类似,它成功地将在光学流和场景流联合估计中应用双向融合范式,证明了将这种范式应用于其他任务的可行性。

III DeepInteraction : 3D object detection via modality interaction

大多数现有的3D目标检测框架在特定的阶段将不同模态的数据或特征融合,以便进行后续的特征提取和解码。然而,由异质模态的表示和优化动态的特性,这种单方面的融合可能损害检测性能,与在检测流程的早期或晚期阶段进行此集成无关。总的来说,早期的融合可能会限制每种模态的独特表示学习能力的充分利用,而晚期的融合可能会削弱多模态信息的优势。在本文中,作者提倡使用多模态表示学习中的模态交互方法,在保持多模态表示的同时,允许多模态表示之间的相互增强,并充分利用每个模态的独特特征提取优势。

具体来说,作者提出了一种全新框架,DeepInteraction 。与先前的艺术作品不同,它在整个检测流程中维护了LiDAR点云和摄像头图像模态的两种独特表示,同时通过多模态互动实现信息交换和聚合,而不是创建一个单一的融合表示。如图1(b)所示,它包括两个主要组成部分:一个实现多模态表示互动的编码器(第III-A节),以及一个实现多模态预测互动的解码器(第III-B节)。编码器通过多模态表示互动实现模态之间的信息交换和集成,同时保持每个模态的独立场景表示。解码器则将来自不同模态专用表示的信息进行聚合,并迭代地将检测结果在统一的不针对模态的方式中进行细化,即多模态预测互动。

Encoder: Multi-modal representational interaction

与传统的模态融合策略不同,作者的方法坚持并通过多模态代表的交互来维护和增强单个模态的表示。作者将编码器构造成一个多输入多输出(MIMO)结构,如图2(a)所示。它接受由激光雷达(LiDAR)和图像 Backbone 独立提取的两个模态特定场景表示作为输入,并生成两个精化的表示作为输出。具体来说,它由堆叠多个多模态代表的交互编码器层组成。在每个层中,来自不同模态的特征进行多模态代表的交互(MMRI)和内模态代表的内学习(IML),用于跨模态和模态间的交互。现在作者将概述编码器的一般结构。

Interaction encoder with a dual-stream Transformer

在作者的初步模型 DeepInteraction [10] 中使用的表示集成方法已经取得了强大的成果,提高了可扩展性和可用性。在本工作中,作者进一步提高了可扩展性和计算开销减少。这是通过用具有定制交互机制的自注意力相互作用的Transformer层替换原始编码层实现的。此外,原始MMRI块中的并行模态和跨模态表示学习现在被用作重构架构中的自注意力和交叉注意力操作。

以激光雷达分支为例,每个Transformer层内的计算可以表示为:

其中, 表示前馈网络, 表示Layer Normalization [50], 和 分别表示MMRI和IML。图像分支中的Transformer层遵循相似的设计。之后,作者将详细介绍每个模块的计算。

Multi-modal representational interaction (MMRI)

采用两种模态的表示,即摄像机全景表示 和激光雷达BEV表示 为输入,作者的多模态表示交互旨在以双向方式交换邻域上下文。

跨模态对应映射和采样。为了定义跨模态邻接性,作者首先需要构建表示 和 之间的像素到像素(s)对应关系。为此,作者在图像坐标系 和BEV坐标系 之间构建密集映射( 和 )。

从摄像机图像到激光雷达BEV坐标 (图2(c)):首先将3D点云中的每个点 投影到多摄像头图像中,形成稀疏深度图 ,然后进行深度补全[51]得到密集深度图 。作者进一步利用 将图像空间中的每个像素升高到3D世界空间。结果是对于具有深度 的图像像素,对应的3D坐标。接下来,用于定位对应的激光雷达BEV坐标,其中是检测范围,是的大小。将上述映射称为,作者可以从摄像机到激光雷达BEV的跨模态邻居通过(2k 1)×(2k 1)大小的网格采样获得,即。

翻译:从激光雷达BEV到摄像头图像坐标 (图2(b)):对于激光雷达BEV中的一个坐标 ,作者首先获得对应该坐标的柱子中的 个激光雷达点 。然后,根据摄像机的内参 和外参 ,按照相机成像方式将这些 3D 点投影到摄像头图像坐标系 中。然后,激光雷达BEV到摄像头图像的对应关系定义为:。

基于注意力的特征交互。 一旦定义了跨模态的相关性,作者就使用注意力机制来实现跨模态信息交流。具体而言,给定图像特征 Query , 其跨模态邻居 , 作为跨注意力的键值 和 :

其中 表示在二维表示中的位置 的元素, 是 激光雷达到图像表示交互(MMRI-I2L), 生成图像特征图,其中加入了激光雷达信息。

反过来,给定LiDAR BEV特征点 Query ,作者可以类似地得到其跨模态邻居。图2(b)中的过程与公式相同,实现图像到LiDAR的表示互动(MMRI-I2L)。然而,LiDAR数据的稀疏性使得上述基于投影和采样的交互操作在深度交互(DeepInteraction)[10]中与缺失的语义关联稀疏交互。尽管通过在解码过程中集成完整的图像表示可以缓解这一问题,但它可能会导致跨平面匹配过程的监督不足,从而使图像增强的LiDAR BEV特征的学习效果不佳。此外,这种交互过分依赖精确的LiDAR校准可能会降低系统的整体鲁棒性。

结合密集全局上下文有利于进一步提高性能,尤其是在图像到BEV的交互中,如[8]中所述。因此,作者引入了一种新的交互机制,即图像列和BEV极角之间的LiDAR引导的跨平面注意力,受[18]的启发。这是一种旨在有效利用图像表示交互中的密集全局上下文的交互机制。这个模块被插入在自注意力和Transformer层(公式1)的交叉注意力之间。它使作者的图像到LiDAR表示交互可以有效使用图像信息中的密集全局上下文,同时保持目标 Level 的稀疏局部关注。

新的跨注意力操作利用了BEV极角和相机图像列之间的内在对应关系。作者不再仅仅依赖于基于学习的跨平面特征对齐,而是将LiDAR信息作为指导整合到作者的方法中。具体来说,对于每个相机,作者首先将变换到以为原点的极坐标系中,并得到,其中是图像特征的宽度,是半径的维度。经过变换,LiDAR BEV特征图中的第i个极角自然对应于图像特征图中的第i个列。一旦相机参数固定,两个序列之间的元素之间的One-to-One对应关系将变得更加稳定和易于学习。作者使用多头自注意力和正弦位置编码来捕捉这个模式。

是通过图像表示 增强的 LiDAR 特征图,并将它转换回笛卡尔坐标系统以进行后续交互。借助 LiDAR 信息,这种转换比仅使用图像的方法要更易操作,因为后者需要多次重复多头自注意力以将图像语义传播到正确的深度。

此外,作者使用闪光注意力 [52, 53] 尽可能减小由该模块引入的额外计算和内存开销。在第 V 节中的实验结果表明,这个操作提供了一个有益的密集上下文,补充了原始以目标为中心的稀疏交互。这最终显著提高了检测性能,并使得作者将作者的方法扩展到端到端规划成为可能。

Intra-modal representational learning (IML)

在结合异构模态信息之外,进行模态内推理对于更全面地整合这些表示是有益的。因此,在编码器每一层中,作者都进行与多模态交互互补的模态表示学习。在本研究中,作者使用变形注意力[54]进行模态表示学习,替换了原 DeepInteraction 中使用的独立注意力[55]。考虑到视角投影引入的尺度差异,与更灵活的接受域进行交互操作比在固定局部邻域中进行交叉注意力[10]更为合理。这一修改保持原有高效局部计算的同时,实现了更灵活的接受域,并为多尺度交互提供了便利。

Efficient interaction with grouped sparse attention

由于点云固有的稀疏性,LiDAR点的数量在每个 Pillar 内有所不同,且单个 Pillar 内的点最多只能被两个摄像头看到。因此,为了在图像到LiDAR表示相互作用的并行计算能力,作者首先需要将每个 Pillar 的图像表示向量填充到固定的数量,并遮挡注意力过程中的无效标记。然而,这种蛮力方法必然会导致大量不必要的计算和内存消耗。

为了解决这个问题,作者仔细分析了每个 Pillar 有效图像标记数量之间的分布,并将这些 Pillar 分为几个间隔。然后作者通过填充每个间隔内的键和值到间隔的上限来进行 Pillar 的batchify。通过仔细选择间隔边界,这种修改显著降低了内存消耗,且对并行性影响可以忽略不计。此外,这种修改在计算上是等价的于原始实现,因为填充值在注意力过程中会被屏蔽。

Decoder: Multi-modal predictive interaction

除了在表示层面考虑多模态交互外,作者进一步介绍了一个解码器,该解码器具有多模态预测交互(MMPI)来分别利用不同表示中的特定模态信息存储,并最大限度地发挥它们在预测中的互补作用。

如图3(a)所示,作者的核心思想是基于另一个模式条件增强一个模态的3D目标检测。特别是,解码器由多个多模态预测交互层堆叠而成,在这些层中部署了预测交互来逐步通过交替聚合增强图像表示和增强的BEV表示中的信息来优化预测。类似于DETR[22]的解码器,作者将3D目标检测转化为集合预测问题。在这里,作者定义了个目标 Query ,这些 Query 将转换为个目标预测通过解码器,其中和分别表示从第个 Query 解码得到的目标边界框和类别。为了使模型预测获得有效的多模态交互,作者提出多模态预测交互层来构建解码器。第层解码器的集合预测由以下输入计算得到:中的 Query 嵌入和中的预测边界框。作者利用增强图像或激光雷达表示与上一层进行交互(如果为奇数,则使用,否则使用)。作者专门针对特定模态提出多模态预测交互层(图3(b))。

在图像表示上的MMPI。作为输入,当前层将从上一层生成的3D物体 Proposal 和相应的 Query 嵌入。为了整合之前的预测,作者首先从图像表示中提取个感兴趣区域(RoI)[56]特征,其中是对应第个 Query 的提取的RoI特征,是RoI的大小,是通道数。具体而言,对于每个3D边界框,作者将它映射到图像表示中,得到二维凸多边形,并取其最小轴对称内切矩形作为RoI。然后,作者设计了一个多模态预测交互算子,首先将映射为一系列卷积的参数,然后依次应用在RoI特征上;最后,所得特征将用于更新物体 Query 。

基于激光雷达表示的MMPI。这个层的设计与上面的层相同,除了作为输入的是激光雷达表示。关于激光雷达表示的RoI,作者将前一层的3D边界框投影到激光雷达BEV表示中,并取最小轴对齐矩形。值得一提的是,由于自动驾驶场景中的物体尺寸通常很小,因此在BEV坐标系中,作者将其放大2倍用于RoI对齐。从激光雷达BEV表示裁剪出的RoI特征的形状被设置为,其中是RoI特征和BEV表示的通道数。激光雷达表示的多模预测交互层堆叠在其图像对应层上。

对于预测解码,在每个多模预测交互层上,作者在的每一层上添加一个前馈网络来推理分类分数、位置、尺寸、方向和速度。在训练中,应用与[32]中相同的匹配成本和损失函数到每一层。

IV DeepInteraction for end2end autonomous driving

作者的预测交互解码器**(a)通过(b)**逐渐交互两个模式特定的表示来生成预测。

为了进一步表明可扩展性和优越性,作者将DeepInteraction 扩展为一个端到端的多元任务框架,同时解决场景感知、运动预测和自我规划任务。而不是涉及多个子任务进行全面的驾驶场景分析,作者增加了三个额外的下游任务(包括地图分割、预测和规划),遵循 VAD [47] 相对轻量级的框架。因此,作者的端到端变体可以有效地减轻由复杂的交互编码器引起的内存开销,并进一步利用多模态表示的优势发挥多任务能力。

作者在现有的检测Head之外,还采用了额外的任务头,构成了端到端的框架,包括地图分割头的地图分割,估计检测目标的运动状态的预测头,以及为自我车辆提供最终动作计划的规划头。

考虑到从BEV和周围视图生成的特征图用于深度交互解码,作者对利用这一优势进行了一些修改。首先,与LiDAR点相比,地图表示的特征图对图像上下文更加具有判别性,大量的点信息可能产生困惑。因此,作者通过LSS [41]将周围视图特征映射到BEV,然後将它们传送到地图分割头。然后,预测和规划头以检测和分割的结果为输入,使用标准的Transformer解码器进行处理。

V Experiments

Experimental setup

数据集。作者在 nuScenes 数据集[63]上评估作者的方法,该数据集包含从 32-beam LiDAR 提供的点云以及来自 6 个周围摄像头的具有 分辨率的图像。它包含 1000 个场景,并正式划分为训练/验证/测试集,其中训练/验证/测试场景分别为 700/150/150,每个顺序大约为 20 秒长,每 0.5 秒进行一次标注。对于 3D 目标检测任务,在各种场景中有 1.4M 个物体被标注,具有 3D 边界框,并被分类为 10 个类别:汽车、卡车、公共汽车、拖车、建筑车辆、行人、摩托车、自行车、障碍物和交通锥。

度量标准。对于评估,作者使用平均精确率(mAP)[64] 和 nuScenes 检测分数(NDS)[63] 作为评分指标来测量 3D 检测性能。具体来说,作者通过在 0.5m、1m、2m 和 4m 的距离阈值上平均得到 mAP,这些阈值对应了 10 个类别:汽车、卡车、公共汽车、拖车、建筑车辆、行人、摩托车、自行车、障碍物和交通锥。此外,作者还计算了 nuScenes 检测分数 (NDS),它是对 mAP 和其他属性指标(包括转换、缩放、方向、速度和其他边界框属性)的加权平均值。

Implementation details

模型. 作者实现了一个基于公共代码库 mmdetection3d, [65] 的模型框架。遵循TransFusion [32],作者从COCO [67]上预训练的实例分割模型 Cascade Mask R-CNN, [66] 开始初始化图像后端。对于DeepInteraction和DeepInteraction ,作者分别将广泛的用于图像模式下的默认后端设置为ResNet-50 [68]和Swin-Tiny [69]。为了降低计算成本,训练时将输入图像大小缩减一半,并在训练过程中固定图像后端的参数。为了与其他变体进行公平比较,作者将 Voxel 大小设置为,检测范围在X轴为 到,Y轴为 到,Z轴为 到的默认配置中。对于多模态交互模块,作者通过堆叠两个表示交互层和具有五个串行预测交互层的解码器来构建编码器。作者在训练中设置 Query 数量为200,并采用与Transfusion [32]相同的 Query 初始化策略。在测试阶段,作者将用于DeepInteraction和DeepInteraction 的 Query 数量分别调整到300和400,以实现最佳性能。请注意,本工作没有涉及测试时的增强和模型集成技巧。

训练. 遵从常见的做法,作者采用了几种随机数据增强,包括在范围为的的缩放,标准偏差为0.5的平移以及水平翻转。作者使用CBGS [70]中的分类平衡重采样来平衡nuScenes数据集的类分布。遵循[32],作者采用了两阶段的训练配方。作者将TransFusion-L [32]作为作者的LiDAR-only Baseline ,并在8个NVIDIA A6000 GPU上,以每个批处理16个在6和9个epoch中训练LiDAR-图像融合模块。训练过程中,作者使用Adam优化器,采用一次周期学习率策略,最大学习率为,权重衰减为0.01,并且动量为0.85到0.95。

Comparison to the state of the arts

主要结果。 作者在nuScenes数据集的val和测试分量上与最先进的替代方法进行了比较。如表1所示,作者的原始DeepInteraction明显优于所有先前的方法,而作者的DeepInteraction 通过改进的结构设计实现了新的state-of-the-art性能。值得注意的是,与Transfusion[32](一个无监督的混合 Baseline )相比,作者的DeepInteraction在相同的全模态特定 Backbone 网络和训练配方下,实现了2.4% mAP和1.3% NDS的显著性能提升,证实了作者多模态交互方法的优势。作者在Table IX中提供了每个类别的结果。定性结果如图4所示。

作者的DeepInteraction 默认采用更强的图像 Backbone 。为了证明修订后的架构带来的改进是持续的和必要的,作者在同一图像 Backbone 和nuScenes val set上将DeepInteraction与DeepInteraction 进行了系统性、全面的比较。表2的结果表明,在所有设置下,DeepInteraction (通过更仔细地设计的架构)通常优于 Baseline (所有指标),同时遵循相同的层次模态交互构建,证明了作者多模态交互方法的优势。

作者将性能提升归因于两个方面:

(1) 具有增强的 intra-modal学习的标准Transformer架构提供了比会议版本中简单的伪设计更平滑的梯度反向传播路径和更灵活的感知域,从而实现更有效的优化。

(2) LiDAR引导的平面极光注意有效利用图像特征中的密集上下文,为图像到LiDAR表示交互中的以物体为中心的稀疏交互提供有益补充。在以下部分,作者将通过严格的消融实验进一步证实这些论点。

运行时间。 作者在NVIDIA RTX A6000 GPU上比较了所有方法的对齐速度。如图表3所示,作者的方法在性能和效率之间取得最佳权衡,比替代方法实现更快的心算速度。这说明作者方法在性能和效率之间的权衡更好。具体地说,多视图高分辨率摄像头图像的特征提取是多模态3D检测器中总体延迟的最大来源,这在[2]中得到了证实。

Ablation studies

在本节中,作者首先对DeepInteraction 进行消融实验,以研究作者的核心模型(模态交互)的有效性以及重要的设计选择。随后,作者将提供从DeepInteraction到DeepInteraction 的明确改进路径。

Iv-D1 Ablations of the modality interaction

多模态表示交互的影响。为了证明作者多模态表示交互的优势,作者将它与降级的基础进行比较,该基础在表示交互过程中不逐步优化图像特征。为了进行公平的比较,两种方法都使用相同数量的编码层和相同的解码器。如表4 a)和c)所示,作者的表示交互比单向融合的其他方案更有效。此外,作者将代表性基础Transfusion [32]与传统的模态融合策略进行了比较,如图表8所示,这表明作者双边模态交互策略的优势。

预测交互的影响。在表4中,作者评估了在模型解码过程中使用不同表示/模态的性能。c)和d)比较了交替使用两种表示的全MMPI以及只在所有解码层中使用LiDAR表示的结果。结果表明,在解码阶段与两种模态交互更具优势。这表明,即使通过精心设计的表示交互机制进行充分的互相增强,图像表示仍然包含对预测具有独特优势的信息。

Iv-D2 Ablations on the encoder

设计选择在表示交互编码器中。表5的第一行展示了无编码器的模型的结果,即从不同后端骨架独立提取的两种模态特定表示直接输入到解码器中。与其他设置相比,这个设置的性能有很大的差距。这表明,异质模态之间的融合对于高性能3D检测是必要的。为了确保这些改进的确切来源,作者在不同的层数下消融多模态表示交互(MMRI)和内模态表示学习(IML)在编码器中的作用。从表5中,作者可以看到两个观察结果:两种MMRI和IML都对性能有所贡献,而MMRI尤为重要。此外,将编码器层堆叠比浅层交互更好。

表示交互的定性结果。为了更深入地了解作者表示交互的影响,作者在nuScenes数据集中可视化了一些具有挑战性的样本的预测 Heatmap 。从图5中,作者可以发现,在这些样本中,某些物体在没有作者的表示交互的辅助下会被忽略。这些物体的位置用红色圆圈在 Heatmap 中突出,并在RGB图像下的白框中标注。具体来说,样本(a)表明,摄像机信息在恢复部分遮挡的稀有 LiDAR 点物体时是有帮助的。样本(b)展示了一个典型的案例,其中在视觉信息的帮助下,一些远距离的物体可以成功识别。从样本(c)中,作者可以观察到,某些障碍物的中心在表示交互后, Heatmap 中的激活更加明显。这可能是因为从 LiDAR 点云中只有连续几个障碍物的边界定位是非常困难的。

表格V:编码器设计的消融实验。IML:内模态学习;MMRI:多模态表示交互。所有实验基于作者的 DeepInteraction 框架。

表格IV:交互模态的影响。作者在交互的不同阶段消融了每个模态。“I2L”和“L2I”分别表示图像到 LiDAR 和 LiDAR 到图像的表示交互,“L”和“I”表示解码器中使用的模态。所有实验均在 DeepInteraction 框架上进行。

Iv-B3 Ablations on the decoder

多模态预测交互层与标准DETR预测的对比 在表7中,作者通过比较作者的多模态预测交互(MMPI)与标准DETR[22]解码层,评估了预测交互设计的效果。请注意,后者设置意味着使用普通的交叉注意力将多模态信息聚合为Transfusion[32]中的方式。作者还测试了一种混合设计:使用交叉注意力在LiDAR表示中聚合特征。

解码层数量和 Query 数如图6所示,将解码层数量增加到5层时,可以一直改善两种模型的性能,同时引入可忽略的延迟。

由于作者的 Query 嵌入在非参数和输入相关的方式下[32]初始化,所以在推理时 Query 数可以调整。在图VII中,作者评估了在训练和测试中使用不同数量 Query 数组合的性能,在DeepInteraction上。总体而言,不同选择下,训练和测试效果都很稳定,训练为200/300,测试为最佳实践。

V-B4 Ablation on LiDAR backbones

作者研究了作者的框架在两种不同的 LiDAR Backbone 网络:PointPillars [25] 和 VoxelNet [23] 上的泛化能力。对于 PointPillars,作者将 Voxel 大小设置为(0.2m,0.2m),同时保持其余设置为默认值。为了进行公平的比较,作者使用了与 TransFusion [32] 相同的 Query 次数。如表8 所示,由于提出了多模态交互策略,Deepinteraction 在使用任何 Backbone 网络( Voxel Backbone 网络:5.5% mAP,柱状 Backbone 网络:4.4% mAP)优于 LiDAR 单独的基础模型的基础上呈现一致的改进。这些结果展示了作者的 DeepInteraction 框架在不同点云 Backbone 网络上的泛化能力。关键是改进的交互机制尤其对从光照 LiDAR Backbone 网络中提取的表示具有强大的实用价值,在柱状 Backbone 网络上的效果尤为明显。

V-B5 Performance breakdown of each category

为了展示更细粒度的性能分析,作者将VAD[47]和作者的DeepInteraction 在nuScenes验证集上的端到端规划结果进行比较。在HD地图中,绿色方框表示自车,圆弧部分突出显示了显著的区别。

表格VIII:使用不同的点云 Backbone 进行3D检测的比较。表格VII:用于3D检测的 Query 数量在DeepInteraction框架上的ablation。所有实验均在DeepInteraction框架上进行。

在nuScenes验证集类别层面的LiDAR仅基础Transfusion[32]的DeepInteraction框架上的mAP。从表格IX中可以看出,作者的融合方法在所有类别上实现了显著的改进,尤其是在 tiny 或罕见物体类别中。

Iii-D6 Component analysis of DeepInteraction

在图8中,作者逐步展示将DeepIntection迁移到DeepInteraction 的过程,以展示每个设计选择的影响和成本。

Transformer 架构与可变形注意力 在第三部分A部分,作者提出通过一对并行的 Transformer 来实现表示性交互,并替换为原型的单独注意力 [55],在跨模态交互中使用的变形注意力 [54]。比较图8 a)-b) ,作者可以看到这种修改有效提升了性能和效率。作者认为性能提升可能得益于变形注意力的更灵活的接收域,而效率提升则源自动态的有效优化实现。

分组图像到激光雷达注意力。尽管增加编码器层数可以提升性能,但会增加额外的计算开销。为了平摊这些成本,作者在第三部分A部分提出分组图像到激光雷达注意力。图8 c)的结果表明,通过引入分组注意力,可以显著减少内存占用,而不增加延迟,归因于精心设计的分组间隔。

激光雷达引导的交叉平面极化注意力。为了进一步提升性能,作者在第三部分A部分引入了激光雷达引导的交叉平面极化注意力,以利用图像表示中的密集图像特征。图8 c)-d)的比较验证了这种机制的有效性。引入来自图像表示的密集上下文信息有助于提供原稀疏交互的有益补充。

扩展backbone和训练进度 在图8 d)-e),作者报告了扩展图像backbone带来的额外性能提升。值得注意

Extension to the end-to-end planning

作者使用与检测任务相同的设置训练端到端框架,但批处理大小为1。在度量标准方面,作者使用六个预测模式的,和作为预测性能的评估。在规划任务的环境下,作者采用自车轨迹移位误差(L2)和碰撞率作为衡量标准。

性能比较和定性分析

得益于多模态表示和交互解码,作者的DeepInteraction 端到端扩展在感知和预测性能方面比VAD [47]更好,具体表现如表10所示。此外,作者在表10中报告了规划结果,表明DeepInteraction 在大多数评估指标上都远远超过了现有的规划导向方法。除了提供更准确的规划轨迹外,DeepInteraction 还可以通过采用更精确和全面的感知和预测来达到更低的碰撞率。此外,作者还实现了基于原始版DeepInteraction的端到端框架,该框架将稀疏点作为表示交互的中介。与DeepInteraction 相比,该框架可以在稀疏点上下文以及密集极化交互的帮助下更好地保留道路元素,从而获得优越的性能。

为了直观地展示DeepInteraction 的优势,作者在图7中提供了几个定性结果。通过集成多模态信息并采用有意义的融合策略,作者的方法可以全面理解和分析驾驶场景,因此即使在复杂而复杂的驾驶环境中,也可以给出更合理的规划操作。例如,在第一和第二个案例中,作者采用了合适的速度。此外,由于精确的上游感知,DeepInteraction 可以有效地避免由于累积错误引起的错误动作,这在三行中被详细展示了。

TableIX:与仅使用激光雷达的基准Transfusion-L [32]在nuScenes val分上进行比较。类别上的AP划分用于更全面地展示改进。“C.V.”和“T.C.”分别表示“建筑车辆”和“交通锥”。除了,由于精确的上游感知,DeepInteraction 能够有效地避免由于累积误差引起的错误动作。

VI Conclusion

在本研究中,作者提出了一种新颖的多模态交互方法,用于探索自动驾驶中多模态的固有互补性质及其各自特征。

这个关键理念是保持两个模态特定的表示,并在它们之间建立交互,以用于表示学习和预测解码。

这种策略旨在特别解决现有单向融合方法的基本局限性,即图像表示因辅助源角色处理而不足的广泛实验证明 our 方法在高度竞争的 nuScenes 基准测试中取得了最先进的表现,涵盖了 3D 目标检测和更多的端到端自动驾驶任务。

参考

[1].DeepInteraction : Multi-Modality Interaction for Autonomous Driving.

0 人点赞