基于 Transformer 的多模态融合方法用于语义分割！

对于自动驾驶领域的基于相机和激光雷达的语义目标分割的批判性研究，深度学习的最新发展起到了极大的推动作用。特别是，视觉 Transformer 是这一新颖突破的先驱，成功地将多头注意力机制带到了计算机视觉应用中。因此，作者提出了一个基于视觉 Transformer 的网络，以执行自动驾驶应用中的相机-激光雷达融合语义分割。作者的 Proposal 在双向网络上采用了视觉 Transformer 的新型渐进式组装策略，然后在 Transformer 的解码层上通过交叉融合策略整合结果。与文献中的其他工作不同，作者的相机-激光雷达融合 Transformer 已经在雨和低光照等具有挑战性的条件下进行了评估，显示出强大的性能。本文报告了在不同模态下车辆和人类类别的分割结果：仅相机、仅激光雷达以及相机-激光雷达融合。作者对CLFT进行了与其他专为语义分割设计的网络的一致性控制基准实验。实验旨在从多模态传感器融合和主干架构两个角度独立评估CLFT的性能。定量评估显示，与基于全卷积神经网络（FCN）的相机-激光雷达融合神经网络相比，作者的CLFT网络在具有挑战性的暗湿条件下提高了高达10%的性能。与使用单模态输入的 Transformer 主干网络相比，整体改进了5-10%。

I Introduction

环境语义分割是自动驾驶中的一个挑战性课题，并在诸如操纵、路径规划和场景理解等智能车辆相关研究中发挥着关键作用。由于深度神经网络的进步，特别是卷积神经网络（CNN），以及开放数据集的可用性，语义分割领域已取得了巨大进展。早期研究采用相机的RGB图像作为输入，并用具有相对单调场景的数据集进行测试。近年来，感知传感器行业的蓬勃发展以及严格的安全要求推动了涉及不同传感器和综合场景的语义分割研究。在各种研究中，激光雷达传感器（LiDAR）参与最多。流行的仅激光雷达方法包括VoxNet[6]、PointNet[7]和RotationNet[8]。然而，多模态传感器融合被视为解决自动驾驶问题的有前途的技术，并已成为语义分割的主流选择。

作为一个应用研究，语义分割的进步是由神经网络 Backbone 架构 Proposal 推动的。近年来提出的最受欢迎的神经网络之一是 Transformer ，它将多头注意力机制应用于自然语言处理（NLP）应用中。Vision Transformer（ViT）的提出激励研究行人探索其在自动驾驶环境感知中的潜力。作者工作的独特之处在于与其它基于 Transformer 的多模态融合技术相比，详见第二节。

在这项工作中，作者引入了相机-激光雷达融合 Transformer （CLFT）。CLFT保持了基于 Transformer 的网络的通用编码器-解码器架构，但在双向网络中使用了视觉 Transformer 的创新逐步组装策略。然后，通过在 Transformer 解码层上使用交叉融合策略来整合两个网络方向的结果。与先前在此领域将激光雷达的 Voxel 视图与相机视图集成在一起的工作不同，作者的工作采用了将激光雷达点云沿XY、YZ和XZ平面视图投影的策略；

因此，相机和激光雷达输入被合并为统一的数据表示，以进行后续操作，包括特征提取、组装和融合。尽管作者的CLFT模型需要对激光雷达点云进行预处理，如校准、过滤和投影，但作者已经验证了基于当前自动驾驶车辆[15]的硬件规格，可以即时执行所有这些操作，而不会产生显著的开销。结合第五节的推理时间分析，可以认为作者的模型具有实际应用的潜力。

在实际交通场景中，处理不平衡的样本分布对自动驾驶车辆提出了重大挑战。例如，尽管车道上通常汽车的数量比人多（主要在交叉路口或人行道上遇到人），但实现对人类实体的精确感知对于任何自动驾驶车辆的最佳运行仍然至关重要。作者之前基于相机-激光雷达的全卷积网络（CLFCN）[16]在车辆分类中实现了90%以上的准确率。

但是，它在人类类别上的准确率有限，仅为50%。由于数据集中人类类别的代表性不足，在显式下采样过程中，CNN在有效学习知识方面面临挑战。相比之下，视觉 Transformer 在所有阶段保持了表示的一致分辨率。此外，它们内置的多头自注意力机制固有地提供了处理全局上下文的优点，使它们更擅长解决与类别不平衡分布相关的挑战。

总之，本工作的贡献如下：

作者引入了一种名为CLFT的新网络架构，它在双向网络中采用视觉 Transformer 的创新逐步组装策略。
据作者所知[17][18]，CLFT是第一个开源的基于 Transformer 的网络，它直接使用相机和激光雷达传感输入进行目标语义分割任务。
作者根据光照和天气条件划分数据集。这种方法允许作者比较并突出不同模型在具有挑战性的现实世界情境中的鲁棒性和有效性。
作者进行了全面的基准实验，以评估不同 Backbone 和输入模态的有效性。结果表明，作者的CLFT模型的关键特性，即 Transformer 和多模态传感器融合的结合，在所有场景中都有进步和优势。

本文的其余部分如下。第二节回顾了自动驾驶中相机-激光雷达深度融合和 Transformer 使用方面的最新文献。作者分析了当前研究的不足，并解释了作者的工作如何为此领域做出贡献。第三节介绍了CLFT架构的细节。第四节介绍了作者在这项工作中使用的数据集的预处理和配置。第五节报告了实验结果和讨论。最后，在第六节进行了结论。

II Related work

作者重新审视了与自动驾驶中语义目标分割相关的两个方面的相关文献。第一部分回顾了基于激光雷达-相机融合的深度学习 Proposal 。第二部分介绍了 Transformer 在自动驾驶研究中的最新应用。

Camera-LiDAR fusion-based deep learning

在多模态融合领域中，相机与激光雷达（LiDAR）数据的融合是被广泛研究的话题，特别是在交通目标检测和分割的背景下。各种分类法被用来归类整合相机和激光雷达信息的深度融合算法。为了区分不同的融合原则，作者采用了[9]中提出的模式，即信号级、特征级、结果级和多级融合。这种系统的分类有助于更好地理解和比较在交通相关应用中为提高性能而在相机和激光雷达数据融合中采用的各种方法。

信号级融合被视为早期融合，因为它依赖于空间坐标匹配和原始数据（例如2D/3D几何坐标、图像像素值）的整合，以实现两种感测模态的融合。深度补全[19][20]是一个典型的应用，它本能地适合信号级融合。文献[21][22]和[23]探讨了在道路/车道线检测场景中使用信号级融合的可能性和性能-计算权衡。在交通目标检测和分割中实现信号级融合的工作相对较少[24][25]，因为在稀疏映射和投影过程中纹理信息的损失是不可避免的。
另一方面，特征级融合的文献非常丰富。一般来说，激光雷达数据以 Voxel 网格或2D投影的形式参与融合，而特征图是图像输入最常见的格式。VoxelNet[26]是首个在融合相机数据之前将原始点云采样为稀疏 Voxel 的开创性工作。将激光雷达的2D投影与相机图像融合的例子有[27][28][29]。
结果级融合的直觉是使用基于权重的逻辑操作来组合来自不同模态的预测结果，这在文献[30][31]中被采用。
多级融合结合了上述其他三种融合方法，以克服各自方法的缺点。Van Gansbeke等人在一个网络中结合了信号级和特征级融合来进行深度预测。PointFusion 通过首先生成2D边界框，然后基于这些2D框过滤激光雷达点，最后使用ResNet 和PointNet 网络整合图像和点云特征来进行3D目标预测，探索了结果级和特征级融合的组合。其他多级融合研究包括。

在文献回顾中，作者观察到从信号/结果级向多级融合的过渡是相机-LiDAR深度融合的一般趋势。为了减轻一些局限性，如计算复杂性，早期工作通常直接从激光雷达数据中提取几何信息，以利用现有的现成的图像处理网络。最近的研究倾向于以多级格式进行融合，采用各种融合策略和上下文编码过程。作者的工作在多级融合架构方面做出了贡献，该架构使用 Transformer 头编码输入，然后执行相机和激光雷达数据的交叉融合。

Transformers in autonomous driving research

注意力机制自Vaswani等人将其引入到自然语言处理（NLP）任务的 Transformer 架构[10]以来，已经引起了来自不同领域研究者的广泛关注。在众多值得注意的 Transformer 变体中，视觉 Transformer （ViT）[12]在计算机视觉领域展示了其能力，并在自动驾驶的直接应用中表现出色。特别是，自动驾驶感知任务最受益于注意力机制在全球上下文处理和长距离依赖处理方面的优势。在本节中，作者回顾了基于 Transformer 架构在自动驾驶2D和3D通用感知方面的最新研究。

自动驾驶的2D感知应用从相机图像中提取信息。在2D感知研究中，车道线检测是最普遍的任务。Peng等人[37]提出了一种基于鸟瞰视角的 Transformer 架构进行路面分割。工作采用了一种轻量级的 Transformer 结构进行车道形状预测，首先将车道标记建模为回归多项式，然后通过 Transformer Query 和匈牙利拟合损失算法优化多项式参数。其他用于道路/车道分割的 Transformer 深度网络包括[13][39]。由于最近多模态融合是语义分割的趋势，所以2D分割的工作相对较少。Panoptic SegFormer[40]提出了一个全景分割框架，利用有监督的 Mask 解码器和 Query 解耦方法执行语义和实例分割。

基于 Transformer 的3D目标检测和分割研究非常丰富。DETR3D 是流行的DETR 模型的变体，将其2D目标检测潜力扩展到3D检测场景。DETR3D依赖于多视图图像来恢复3D信息，并使用向后几何投影将2D特征提取和3D预测结合起来。FUTR3D 是DETR3D的对立面网络，其特点是一个模态无关的特征采样器，旨在容纳多模态感官输入以进行精确的3D边界框预测。PETR 将3D坐标信息嵌入图像中以生成3D位置感知特征。BEVFormer 采用空间和时间注意力层处理鸟瞰图特征，以提高3D目标检测和地图分割的性能。工作和专注于3D分割。TPVFormer 通过将 Voxel 转换为三个鸟瞰图平面来降低计算要求。VoxFormer[47]从2D图像生成3D Voxel ，然后对3D Voxel Query 执行交叉和自注意力机制以计算语义分割结果。

根据作者的回顾，关于语义目标分割的研究工作相对较少，更不用说相机和激光雷达传感器的多模态融合了。工作[43]和[14]直接使用了激光雷达输入，但它们的重点在于3D检测和占用预测。此外，其他最新工作和从相机输入生成 Voxel 和伪点云，然后进行语义占用预测。而作者的CLFT模型直接将激光雷达数据作为输入，并采用另一种策略将激光雷达点云处理为摄像机平面中的图像视图，以实现2D语义目标分割。首先，作者的工作在自动驾驶研究领域的多模态语义目标分割方面发挥了至关重要的作用。

III Methodology

图1：作者的双向网络整体架构显示，相机数据从左侧流入ViT编码器，而LiDAR数据则从右侧流入。相机输入是单独的RGB通道，而LiDAR输入则作为XY、YZ和XZ投影平面。交叉融合策略显示在中间，并用虚线矩形突出显示。

在本工作中，作者的CLFT模型有两个目标：首先是要超越现有的基于单模态 Transformer 的最先进模型；其次是通过对相机和LiDAR数据的融合，与最近的基于CNN的模型在交通目标分割方面进行竞争。作者保持了用于密集预测的变换网络（DPT）[48]的整体结构，但在其卷积解码器中采用了一种晚期融合策略，该策略首先并行组装LiDAR和相机数据，然后整合它们的特征图表示。作者探索基于变换的网络在语义分割方面的能力，利用LiDAR传感器的优势，证明变换网络相对于CNN在分类代表性不足样本方面的潜力，最后为与变换相关的传感器融合研究提供一个晚期融合策略。本节介绍了模型架构和适用于实验中所用数据集的评价指标的细节。

在图像分析 Transformer 中，编码器-解码器结构已经被广泛实施。作者严格遵循ViT [12]的协议，在作者的网络中建立编码器，为相机和LiDAR数据分别创建多层感知机（MLP）头。对于解码器，作者参考了[48]中的 Proposal ，以组装和整合来自相机和LiDAR传感器的特征表示，以创建比单模态更精确的目标分割。图1展示了作者网络的总体架构。

Iii-B1 Encoder

ViT创新性地提出了一种编码器，将图像转换成可以像句子中的单词一样处理的多个标记；因此，将标准的Transformer从NLP转移到计算机视觉应用中。

ViT编码器有两个步骤将图像转换为标记。

第一种方法是将图像划分为固定大小的不重叠块，然后对它们的展平向量表示进行线性投影。

第二种方法是从CNN特征图中提取特征块，然后将它们作为标记输入到Transformer中。在作者的工作中，作者保留了ViT的定义编码器变体的约定，即“CLFT-base”，“CLFT-large”，“CLFT-huge”和“CLFT-hybrid”。“CLFT-base”，“CLFT-large”和“CLFT-huge”架构使用基于块的嵌入方法，分别具有12、24和32个Transformer层，每个标记的特征维度分别为768、1024和1280。“CLFT-hybrid”编码器使用ResNet50网络提取像素特征作为图像嵌入，然后是24个Transformer层。

所有实验的块大小为16。输入相机和LiDAR图像的分辨率为(384, 384)，这意味着每个块的总像素数小于所有变体的特征维度；因此，可以从输入中以像素级检索知识。对于“CLFT-hybrid”编码器，它从分辨率为的输入块中提取特征。所有编码器都使用ImageNet [49]进行了预训练。

遵循ViT中的工作，作者将位置嵌入与图像嵌入连接起来以保留位置信息。此外，序列中有一个单独的可学习标记用于分类目的。这个分类标记类似于BERT的“class”标记[50]，独立于所有图像块和位置嵌入。关于这些编码器架构的详细信息，请参考原始工作[12]。

Iii-B2 Decoder

计算机视觉设计的变换网络通常通过在不同阶段实现卷积层来修改解码器。Ranftl等人[48]提出了一种用于密集预测的变换网络（DPT），该网络逐步将来自不同编码器层的标记组装成类似图像的表示，以实现最终的密集预测。受到DPT解码器架构的启发，作者构建了一个解码器以并行处理激光雷达和相机标记。

如图1所示，作者选择了四个 Transformer 编码器层，分别表示为，然后将每个层的标记组装成一个类似图像的特征图表示。网络初始层的特征图表示被上采样到高分辨率，而来自深层的表现被下采样到低分辨率。这些分辨率与输入图像大小 Anchor 定，对应于编码器层的采样系数为。具体来说，组装过程有两个步骤。第一步是复制并拼接与所有其他标记独立的“分类标记”，然后将拼接的表示传递给带有GELU非线性激活[51]的MLP处理。单独标记的数量用表示。第一步的详细过程在算法1中说明。

算法1 “分类标记”的投影。

等式1展示了第二步，首先根据它们最初的位置顺序拼接第一步的标记，以产生类似图像的表示，然后将这个表示传递给两个卷积操作。第一个卷积将表示从维度投影到（在作者的实验中是从768到256）。第二个卷积根据 Transformer 编码器的不同层对表示应用上采样和下采样。这两步的通用工作流程在图2中展示。

作者解码器的最后一个流程是相机和激光雷达特征图的交叉融合。作者参考了RefineNet[52]中的特征融合策略，该策略将相机和激光雷达的表示通过两个残差卷积单元（RCU）依次传递。相机和激光雷达的表示与之前融合操作的结果相加，然后通过一个额外的RCU。作者将最后一个融合层的输出传递给反卷积和上采样模块，以计算最终的预测分割。这一过程的逐步概览在图3中展示。来自激光雷达和相机的信息融合可以在任何一个融合块中进行，因为连接权重是通过网络通过误差反向传播自动学习的。

IV Dataset Configuration

本工作的主要目的是比较视觉 Transformer 和卷积神经网络 Backbone 网络在语义分割任务中的性能。作者之前的工作[16]成功构建并评估了基于ResNet50的FCN来进行相机-LiDAR融合。为了保持一致的实验环境，作者基于Waymo开放数据集[53]构建输入数据，以评估CLFT和其他模型。

Waymo开放数据集由多个高质量相机和LiDAR传感器记录。Waymo开放数据集的场景涵盖了不同的光照水平、天气条件和交通场景。因此，作者手动将数据序列划分为四个子集：轻旱、轻湿、重旱和重湿。'轻'和'重'表示相对光照条件，而'dry'和'wet'表示降水量的天气差异。表1展示了数据集划分的细节。

作者提供交并比（IoU）作为模型评估的主要指标，并将精确度和召回值作为补充信息。请注意，IoU主要用在目标检测应用中，其中输出是围绕目标的边界框。因此，作者修改了常规IoU算法以适应多类像素级语义目标分割。主要变化与模糊像素（像素没有有效标签，详情见第IV-B节）有关，这些像素不属于类别列表。作者将这些像素分配为无效，并将其从评估中排除。网络的性能通过预测和 GT 中具有相同类别的像素数量的统计数据来衡量。

LiDAR Data Processing

激光雷达读数反映了现实世界中物体的3D几何信息。三个空间通道中的坐标值包含可以被神经网络利用的特征。因此，在相机-激光雷达融合方面，通常提取并融合多目标特征，如图像的颜色纹理和点云的位置信息，这种方法被称为特征级融合[54]。

在本研究中，作者采用了特征级融合。因此，作者将3D激光雷达点云投影到相机平面，以在、和平面上创建2D占用网格。激光雷达点云中的所有点都按照方程2和方程3进行变换和投影。

在方程2中，、和是变换后的3D点坐标（在相机坐标系中）；、和表示到相机坐标系的欧拉旋转矩阵，表示相应的欧拉角。、和是变换前的3D点坐标（在激光雷达坐标系中）；、和表示相机坐标系中的位置坐标。

在方程3中，和是2D图像平面中点的列和行位置；和表示相机的水平和垂直焦距；和表示图像分辨率；、和是变换后的3D点坐标（与方程2中的、和相同）。

图3：每个融合块接收来自前一个阶段的数据，并整合来自ViT编码器的相机-激光雷达数据。每个融合块都有残差单元、去卷积和上采样。

图2：每个 Transformer 解码器块的组合架构，各层的标记被组合成特征图的形象表示。

将3D点云变换并投影到2D图像之后的操作是滤波，其目的是丢弃所有落在相机视野之外的点。Waymo开放数据集使用五个激光雷达和五个相机传感器收集，覆盖了所有车辆方向。本研究使用了顶部激光雷达的点云和前部相机的图像数据。在这一步中，生成了三个投影足迹图像，分别表示为、和。对应于3D点的像素被赋予、和坐标，其余的填充为零。算法2详细说明了滤波过程细节。最后，作者在将激光雷达图像输入机器学习算法之前对其进行上采样，因为这是基于激光雷达的目标检测研究中的常见做法[55][56]。图4（c）-（g）展示了本节描述的过程的结果。

算法2 激光雷达点滤波和图像像素值填充

Object Semantic Masks

Waymo开放数据集中的真实标注由2D和3D边界框表示，分别对应于相机和激光雷达数据。图像标注中有三个类别：车辆、行人和骑车人。点云标注还有一个额外的类别，即交通标志。在作者网络中使用Waymo的真实标注时遇到了两个障碍。

首先，基于视觉变换的网络因需要大量样本而闻名[12]。然而，在Waymo开放数据集中，骑车人和交通标志的代表性相对较少。作者注意到，在实验设置中，由于这些类别在数据集中的代表性不足，作者的CLFT模型在学习和预测这两个类别时遇到了困难。作者假设，通过附加数据，交通标志和骑车人也可以被正确分类。因此，在本工作中，作者摒弃了交通标志，并将骑车人和行人合并为一个被称为人类的新类别。

其次，作者的研究旨在进行语义分割，这需要标注为物体轮廓。由于Waymo开放数据集将激光雷达传感器读数中的物体标注为3D直立边界框，作者按照第IV-A节中描述的相同过程将边界框中的所有点投影到图像平面上。图4（b）展示了车辆和人类类别的语义 Mask 示例。请注意，这种方法的一个限制是，由于没有相应的激光雷达点，一些物体像素没有有效的标签。

V Results

图4：摄像头图像、语义标注 Mask 和激光雷达数据预处理示例。(a)是RGB图像。(b)展示了从激光雷达真实边界框获得的物体语义 Mask 。(c)(e)(g)分别是X、Y、Z通道的激光雷达投影图像，而(d)(f)(h)是对应的上采样密集图像。请注意，为了可视化目的，(c)-(h)中的灰度强度根据激光雷达点的数值3D坐标值成比例缩放。

如第一节所述，作者的CLFT是首个基于Transformer的模型，融合了摄像头和激光雷达传感器数据用于语义分割。本文的实验重点在两个方面进行受控的基准比较：i)神经网络架构，ii)输入模态。

FCN被认为是深度学习方法最新一代，具有显著性能提升，并已成为语义分割的主流[57]。因此，作者选择CLFCN[16]作为参考，这是一个基于FCN的网络，融合摄像头和激光雷达数据用于语义分割，以探索Transformer Backbone 的优势。由于Transformer擅长捕捉全局上下文和解决长距离依赖问题，作者期望基于Transformer的模型在数据分布不均和样本代表性不足的场景下能超越基于FCN的模型。

只有少数现有的深度学习方法使用与本文相同的原则处理激光雷达输入：将3D点云表示为2D基于网格的特征图[58]。作者将CLFT与Panoptic SegFormer[40]进行比较，后者也是基于Transformer的 Backbone ，以评估各种输入模态的重要性。然而，Panoptic SegFormer完全是基于视觉的。作者按照第IV节的流程生成点云投影图像作为Panoptic SegFormer的激光雷达模态输入，但摄像头-激光雷达融合模式并不能直接应用于Panoptic SegFormer。在所有模型的实验中保持相同的输入数据分割和配置至关重要。

Experimental setup

输入数据集配置的细节在第四节中描述。训练、验证和测试的数据集分割分别占总帧数的60%、20%和20%。四个数据子集，即轻干燥、轻湿润、暗干燥和暗湿润，在训练和验证时进行了混洗和混合，但测试时是分别进行的。在训练过程中，作者采用了CLFCN和Panoptic SegFormer的默认超参数配置。具体细节请参考原作者的工作[40]。在CLFT网络训练中，作者采用了加权交叉熵损失函数和Adam优化[59]。CLFT的 Transformer 编码器从ImageNet预训练权重初始化， Transformer 解码器则随机初始化。CLFT网络训练的学习率衰减遵循，其中是初始学习率，是0.99。CLFT网络训练的批处理大小默认设置为32，但对于一些超出内存限制的实验，例如CLFT大变种的融合模式，则设置为24。其他超参数设置可以在作者公开的代码中找到。由于 Transformer 网络对内存要求较高，基于 Transformer 的网络是在配备NVIDIA A100 80GB GPU的机器上训练的。相对内存要求较低的FCN训练是在一台配备NVIDIA RTX2070 Super GPU的台式机上执行的。数据归一化、增强和早停也在生成模型时使用，与几乎所有最近的最新技术方法一样。

Network performance and comparison

本工作的主要结果在表2和表3中报告。显示的值是两个感兴趣类别（车辆和人）在不同模态和天气场景下的IoU。模态分别表示为C、L和C L，分别指相机、激光雷达和融合。

如表2所示，CLFT-hybrid变体在所有场景下都优于单独的相机和激光雷达模态下的CLFCN和Panoptic SegFormer，证明了在相同数据上具有高分割能力。平均而言，在光线干燥的环境条件下，CLFT-hybrid对车辆的IoU约为91%，对人的IoU约为66%，而CLFCN对车辆的IoU为88%，对人的IoU为60%。Panoptic SegFormer在车辆类别上的性能与CLFCN相似，但在人类别上表现更好，且经过较少的微调工作，这加强了 Transformer 在代表性不足样本方面的优势。在具有挑战性的条件（如黑暗和潮湿）下，作者的CLFT与其他模型的差异更为明显，CLFT-hybrid的性能下降1-2个百分点，而CLFCN和Panoptic SegFormer在单一模态下的性能下降5-10个百分点。在这些情况下，融合在CLFCN中似乎起到了关键作用，而在CLFT-hybrid中只显示出轻微的改进，证明了CLFT-hybrid在各种条件下执行数据融合的鲁棒性。

可能会注意到，单个模态（尤其是激光雷达）的结果已经显示出超过90%的性能（在融合之前）；这一结果也与该领域许多其他研究一致，例如在[60]中，作者在SemanticKitti数据集[61]上达到了汽车类别超过90%的IoU。Panoptic SegFormer在激光雷达模态下的性能明显较弱。这是因为它是为处理RGB视觉输入而设计的。作者单独进行激光雷达处理，以生成带有3D坐标信息的相机平面图；然后将这些图输入到Panoptic SegFormer中。实验结果证明了将激光雷达处理集成到神经网络架构中的必要性。尽管CLFT-hybrid在大多数情况下融合性能优于CLFCN，但重要的是要看到CLFCN模型从融合中获益更多，因为从单个模态的改进似乎更高，特别是在夜间条件下。另一方面，作者的CLFT模型在仅使用相机或激光雷达的具有挑战性的条件下已经显示出高性能。

表3总结了CLFT变体、CLFCN和Panoptic SegFormer的性能。作者为所有模型呈现了精确度、召回率和IoU。为了直接比较，将四种天气场景组合在一起进行性能评估。在所有情况下，CLFT-hybrid变体的表现都优于基本和大型变体。这一结果与Dosovitskiy等人[12]在其消融实验中报告的结果一致，其中基于ResNet的 Transformer 变体优于使用基于块嵌入过程的变体。尽管CLFT-hybrid获得了最高的IoU分数，但CLFCN和Panoptic SegFormer分别具有更高的召回率和精确度结果。

Inference time analysis

表4提供了关于推理时间的一项附加研究。在实验中，作者对所有模型的融合模态在NVIDIA A100 GPU上的CUDA事件时间进行了统计。所有模型都被设置为评估模式以计算推理时间。作者使用图4中的图像作为输入，首先用2000次迭代预热GPU，然后在另外2000次迭代中计算事件流的平均时间。在记录时间戳时，CPU和GPU是同步的。总体而言，基于FCN的模型在计算效率方面明显优于基于 Transformer 的模型。在所有实验模型中，Panoptic SegFormer的推理时间最长。看起来CLFCN比作者表现最好的模型CLFT-hybrid快。然而，这种差异每帧只有大约10毫秒，这在性能和速度之间的权衡中是可以接受的。对于将安全放在首位的自动驾驶来说，分类性能在网络设计中应始终被视为一个关键参数。

VI Conclusion

在本文中，作者提出了一种基于Transformer的多模态融合方法用于语义分割。根据上述所有情况，可以说作者的CLFT模型是交通目标语义分割的前沿神经网络之一。具体来说，CLFT模型得益于多模态传感器融合和Transformer的多注意力机制，对于代表性不足的样本（人类类别最大提高了10%的IoU）取得了显著的改进。然而，值得注意的是，Transformer网络直观上需要大量的数据用于训练。在作者的实验中，仅考虑了轻雨和暗雨子集占总输入数据的12%，这也解释了为什么在表2中，CLFCN模型在某些情况下优于CLFT混合模型。

这项工作提出了采用视觉Transformer策略将输入图像划分为非重叠的 Patch ，或从CNN特征图中提取特征 Patch 。直观地，作者将LiDAR数据投影并上采样到密集点云图像，然后设计了一个双向网络来组装和交叉融合相机和LiDAR表示以实现最终的分割。作者在所有实验中保持相同的输入数据划分和配置，并成功地证明了Transformer在目标分割任务上相对于FCN的优势。具体来说，作者将输入数据分类到不同光照和天气条件的子类别中，以全面评估模型。此外，与之前的Transformer工作类似，作者证明了它在分布不均的数据库和代表性不足的样本上的潜力。最后，作者展示了多模态融合在自动驾驶感知方面的优势和潜力。

参考

[1].CLFT: Camera-LiDAR Fusion Transformer for Semantic Segmentation in Autonomous Driving.

架构模型数据网络工作

0 人点赞

基于 Transformer 的多模态融合方法用于语义分割 ！