简述：机器人BEV检测中的相机-毫米波雷达融合

论文：Vision-RADAR fusion for Robotics BEV Detections: A Survey

作者：Apoorv Singh

编辑：东岸因为@一点人工一点智能

原文：简述：机器人BEV检测中的相机-毫米波雷达融合

这篇文章主要介绍了相机-毫米波雷达融合在机器人 BEV 检测中的应用。为了构建自主机器人感知系统，研究人员和工程师们越来越关注传感器融合，以充分利用跨模态信息。然而，要构建大规模的机器人平台，我们还需要关注自主机器人平台的成本。相机和毫米波雷达包含了互补的感知信息，有潜力用于大规模自主机器人平台的开发。但是，相对于相机-激光雷达融合的研究工作而言，视觉-毫米波雷达融合的工作较少。

在本文中，我们主要是介绍BEV (纯电动车辆) 物体检测系统的相机-毫米波雷达融合方法的工作。

首先，我们介绍了背景信息，包括物体检测任务、传感器选择、传感器设置、基准数据集和机器人感知系统的评估指标。然后，我们对每种模态（Camera和毫米波雷达）的数据表示进行了讨论，然后详细介绍了基于子组的传感器融合技术，包括前融合、深度融合和后融合，以便更容易理解每种方法的优缺点。最后，我们提出了可能的未来趋势，以启发未来的研究。

01 简介

SAE（汽车工程师协会）根据自动驾驶能力的级别将人类驾驶员的角色和驾驶自动化能力分为以下几个级别：Level 0：无驾驶自动化；Level 1：驾驶辅助；Level 2：部分驾驶自动化；Level 3：有条件驾驶自动化；Level 4：高度驾驶自动化；Level 5：完全驾驶自动化。对于Level 2及以上的自动驾驶来说，3D物体检测是一个关键任务。然而，为了使这些机器人平台能够大规模应用，我们需要关注主动安全硬件的成本。

相机和毫米波雷达感知传感器的设置是一种低成本、高可靠性和维护成本低的选择。它可以通过相机提供丰富的语义信息；通过毫米波雷达可以实现远距离检测，能够适应各种光照和天气条件的影响。对于Level 4 的汽车来说，激光雷达是一种常用的传感器选择，然而在Level 2-L3级别的汽车中，相机和毫米波雷达已经占据主导地位，并且在过去十年中已经进行了生产。最近，已经有很多有趣的研究工作，探索如何在更高级别的自动化中利用相机和毫米波雷达的组合，比如[1]、[2]和[3]。

参考文献[5]介绍了相机和毫米波雷达的特性以及它们互补的方面。相机在BEV预测方面一般来说不太好泛化，因为它们接收的输入受到2D像素的限制。但是，它们包含了非常丰富的语义和边界信息。毫米波雷达的数据是已经包含了3D和速度数据的输入点云。然而，它缺乏密集的语义信息。因此，相机-毫米波雷达传感器的组合可以很好地协同工作，但是这些传感器接收到的数据需要映射到一个统一的坐标系中。它们接收到的输入数据可以在图1中可视化。

图1 使用相机、毫米波雷达、高清地图和激光雷达数据的BEV感知。来源：多模态数据集nuScenes

先前的研究[6]只考虑了视觉和激光雷达方面。文献[7]和文献[8]覆盖了视觉和毫米波雷达，但它们没有深入探讨当今流行的基于深度学习的技术。通过本文，我们计划填补这一差距，首先介绍BEV检测和传感器模态的基础知识，然后深入探讨现代视觉-毫米波雷达融合技术，更加关注当前流行的基于Transformer的方法。

如图2所示，本文的其余部分安排如下：

第二部分我们首先介绍了理解机器人BEV感知所需的背景信息，包括物体检测任务、传感器选择、基准数据集、评估指标等。

然后，在第三部分中，我们介绍了相机和毫米波雷达的输入数据格式。

在第四部分，我们将详细分析相机-毫米波雷达融合方法涉及的技术。我们还将对它们进行步骤拆分，以便读者能够更简单地理解。

在第五部分，我们将展示讨论的方法如何在相机-雷达评估基准数据集nuScenes [4]上进行评估。

然后，在第六部分中，我们将探讨可能的扩展，关注当前的研究趋势，为未来的研究提供启示。

最后，在第七部分中，我们将总结我们的研究结果。

02 背景介绍

2.1 物体检测任务

3D物体检测是机器人/自动驾驶平台的重要任务。物体检测是两个基本的计算机视觉问题的结合（即分类和定位）。物体检测的目标是检测出预定义类别的所有实例，并提供其在图像/BEV空间中的定位，通常使用轴对齐的框表示。这通常被视为一个利用了大量的标记图像监督学习问题。物体检测任务中的一些关键挑战包括：

· BEV Box表示（Box BEV representation）：相机图像采用透视图，但是下游自主任务在鸟瞰视图（BEV）中运行。因此，我们需要一种将透视信息转换为正交空间（BEV）的方法。因为我们添加了一个新的深度维度，所以会引起深度信息模糊的问题。

· 丰富的语义信息（Rich Semantic Information）：有时，我们需要区分非常相似的物体，例如多个紧密相邻的看起来相似的物体，或者可能是站在滑板上的行人。在后一种情况中，站在滑板上的行人应该遵循自行车的运动模型，但是很难检测到行人的这个属性。为了识别这些细粒度信息，我们需要在我们的模型中嵌入深层的语义信息。

· 效率（Efficiency）：因为我们正在构建更大、更深的网络，所以我们需要昂贵的计算资源来进行部署推理。边缘设备是常见的部署平台，但很容易成为瓶颈所在。

· 域外物体（Out of domain objects）：我们可以用网络训练的类别有限。在测试时，我们可能会遇到一些在训练时没有见过的物体类别。检测器总是缺乏一些泛化能力。

2.2 传感器选择

相机和毫米波雷达在传感方面具有互补的特点，这使它们能成为强大的感知传感器组合。相机在检测方面的贡献主要来自丰富的语义信息和准确的边界信息。相机在融合时间数据或在恶劣天气条件下并不能很准确地预测边界。然而，毫米波雷达则能弥补相机的不足。毫米波雷达能够利用多普勒效应非常准确地预测物体的深度和速度。同时，毫米波雷达数据非常稀疏，因此计算负载也不会过大。与其他激光传感器相比，毫米波雷达的较长波长使其成为唯一的感知传感器，其性能不会随恶劣的天气条件（如雨、雪、灰尘等）而下降。这些特点在[5]的第三张图中得到了很好地总结。

图3 相机、毫米波雷达和激光雷达的传感器特性。考虑到在空间上和语义上的互补性，相机和毫米波雷达的融合具有很高的潜力。

毫米波雷达所面临的另一个很少被讨论的问题是其无法探测到特殊物体在径向方向上的速度分量，如图5所示。另一个毫米波雷达以及任何基于激光的传感器无法探测到吸收大部分激光的黑色物体/汽车的地方。相机是在这些特殊情况下依赖的后备传感器。

2.3 传感器配置

自动驾驶车辆（AV）通常配备一套传感器，具体配置可能因不同自动驾驶汽车公司而异。典型情况下，每辆车配备6-12个摄像头和3-6个雷达。需要这么多传感器来覆盖整个周围的3D场景。我们只能使用正常视场（FOV）的相机，否则可能会出现无法修复的图像失真，例如鱼眼相机（宽FOV），这种相机只适用于少数几十米的距离。在自动驾驶领域最具有影响力的基准数据集之一nuScenes [4]中，我们可以看到传感器的配置，如图4所示。出于经济原因，与激光雷达相比，AV /移动机器人行业一直更加注重在生产车辆上使用毫米波雷达和相机。在这个示例中，我们可以看到有5个毫米波雷达，6个相机和仅1个激光雷达。这些数字也代表了其他L3 汽车公司的配置情况。

2.4 基准数据集

nuScenes [4]、KITTI [9]和Waymo开放数据集（WOD）[10]是最常用的三个3D BEV物体检测任务。除了它们之外，还可以使用H3D [11]、Lyft L5 [12]、BDD [13]、STF [14]和Argoverse [15]进行BEV感知任务。这些数据集的详细信息可以在表格1中查看。

2.5 评估指标

3D目标检测器使用多个标准来衡量检测器的性能，包括精确度和召回率。然而，平均准确度 (mAP) 是最常见的评估指标。交并比 (IoU) 是预测框与真实框之间重叠面积与并集面积的比值。IoU阈值（通常为0.5）用于判断预测框是否与特定的真实框相匹配。如果IoU大于阈值，则认为该预测为真正阳性 (TP)，否则为假阳性 (FP)。未能用任何预测框检测到的真实对象被视为假阴性 (FN)。精确度是检索到的实例中与相关实例的比例；而召回率是检索到的相关实例占相关实例总数的比例。

基于上述方程，平均准确度分别针对每个类进行计算。为了比较不同检测器的性能，使用了 mAP。它是基于每个类别的真实框数量的加权平均值。

此外，还有一些特定于数据集的指标，如KITTI引入了平均方向相似度（AOS），用于评估地面平面上框的方向估计质量。mAP指标仅考虑物体的三维位置，而忽略了尺寸和方向的影响。在此背景下，nuScenes引入了TP指标，包括平均平移误差（ATE）、平均尺度误差（ASE）和平均方向误差（AOE）。WOD引入了以方向加权的平均精确度（APH）作为其主要指标。该指标还考虑了方向信息。此外，鉴于相机等二维传感器存在深度混淆的问题，WOD引入了纵向误差容忍的三维平均精确度（LET-3D-AP），在预测中更加强调横向错误而不是纵向错误。

03 输入数据格式

本节中，我们将介绍由摄像机和毫米波雷达返回的原始数据格式，以及用于将这些数据转换为统一坐标系，即以自车为中心的笛卡尔坐标系的元数据。

3.1 相机

环视相机图像可以表示为pmb{I}in mathbb{R}^{Ntimes V times H times W times 3} 。在此，N 、V 、H 和W 分别是时间帧数、视图数、高度和宽度。给定V 个摄像机图像pmb{X_k}in mathbb{R}^{3times H times W}V ，每个图像都有一个外参矩阵pmb{E_k}in mathbb{R}^{3times 4} 和一个内参矩阵pmb{I_k}in mathbb{R}^{3times 3} ，我们可以找到以BEV坐标框架为基础的特征的光栅化BEV地图，其中y in mathbb{R}^{Ctimes Ytimes Y} ，其中C 、X 和Y 分别是通道深度和BEV地图的高度和宽度。外参和内参矩阵共同定义了从参考坐标(x,y,z) 到每个相机视图的本地像素坐标(h,w,d) 的映射。请参阅图1，了解自动驾驶车辆上的环视影像。

3.2 毫米波雷达

毫米波雷达是机器人学中使用的一类主动传感器，它通过发射无线电波来感知环境，并测量反射波来确定物体的位置和速度。传感器的原始输出是极坐标形式，可以通过传感器校准矩阵轻松地转换为BEV空间。然而，嘈杂的雷达点需要经过滤波处理，该处理会利用一些形式的聚类和时态跟踪。这种时态跟踪可以通过卡尔曼滤波器[16]实现。卡尔曼滤波器是一种递归算法，可以通过获取先前观测到的目标状态估计和当前状态的测量值来估计目标的当前状态。在内部滤波后，雷达返回BEV中的二维点（不包含高度维度），提供物体的方位角和径向距离。正如[3]的图5所示，它还产生每个二维点的径向速度矢量分量。这里的点可以视为检测到的物体。

图5 文献[3]显示了实际速度和径向速度之间的差异。对于目标A来说，在车辆坐标系中的速度和径向速度是相同的（ v A ）。然而，对于目标B来说，雷达报告的径向速度（ v r ）与物体在车辆坐标系中的实际速度（ v B ）不同。

在现代BEV传感器融合研究中，毫米波雷达检测结果是以自车为中心的三维坐标系中的三维点表示。毫米波雷达点云中的这个三维点被参数化为P=(x,y,z,v_x,v_y) ，其中(x,y,z) 是物体的位置，(v_x,x_y)是物体在x和y方向的径向速度。由于雷达点云的稀疏性很高，我们通常会聚合3-5个时间扫描。这给点云表示增加了一个时间维度。由于在许多方法中，检测头运行在360°的环景场景上，我们将所有毫米波雷达检测到的三维点合并为一个单独的点云。nuScenes [4] 数据集提供了从毫米波雷达坐标系映射到自车中心坐标框架所需的校准参数。请参考图1，了解自动驾驶车辆上的毫米波雷达点云。

04 相机与毫米波雷达融合

根据我们融合两个传感器的信息时机，这些方法可以分为三类，即前融合、晚期融合和深度融合。早期和晚期融合都只有一个不同特征的交互操作，该操作在模块的开始或结束时处理。然而，深度融合具有更多不同特征的交互操作。这三种方法可以在图6中方便地进行总结。

4.1 前融合

前融合也被称为数据级融合。它是三种方法中最少被探索的选项之一。在这种方法中，两个传感器的信息在非常早期的阶段（即特征计算之前）进行融合。这种方法面临的主要挑战之一是数据的同步。我们有来自不同坐标空间的相机和毫米波雷达数据，而且数据的性质也相当正交，前者是密集的2D像素，而后者是稀疏的BEV点云。这种方法几乎没有数据丢失问题，但没有有效的方法来处理来自相机和毫米波雷达的原始数据的复杂性。在这种融合类别中，通常会按顺序进行常见的工作流。在这里，我们首先基于雷达点提取感兴趣区域（ROI），然后将其投影到相机上，并使用一些启发式方法在该区域内收集相机特征，就像在文献[17]、[18]中所做的那样。这种方法并不是非常可靠，因为毫米波雷达点云中的关键对象有很高的可能会被先前过滤掉，并且由于设计的性质，我们甚至不会在图像中寻找这些对象。然而，这种方法的附加好处是，我们只会在位于ROI内的图像部分上运行卷积操作，这样可以节省一些计算资源。

4.2 后融合

后融合是三种方法中最简单的一种，也是过去十年基于相机-毫米波雷达融合的目标检测工作中最常见的方法。根据我们之前的推理，可以确定某些对象和属性可以由相机更好地处理，而其他对象和属性可以由毫米波雷达更好地处理。这种方法允许各个传感器分别检测它们擅长的对象，并使用简单的数据关联技术将两组检测结果融合为一组检测结果[19]。然而，这种方法存在一个传感检测器中的特征无法由另一个检测器的特征增强的事实。例如，相机通常可以很好地检测边界，而毫米波雷达可以以较高的置信度检测速度。这个流程中的工作可以进一步分为两个部分：

1）基于概率推理的方法：在这种方法中，贝叶斯跟踪方法使用概率密度来跟踪多智能体目标的多模。它用组件概率密度近似每个模态。贝叶斯算法和粒子滤波器（PF）处理非线性和非高斯估计。这是一个迭代算法，递归地估计多个目标的状态，并使用最大似然确定当前目标数量。参考文献[20]和[21]了解代表性工作。

2）基于卡尔曼滤波器的方法：在这种方法中，我们通过获取先前观测到的目标状态估计和当前状态的测量值来估计目标的当前状态，如文献[16]所述。简单的卡尔曼滤波器无法准确地处理非线性系统。然而，扩展卡尔曼滤波器（EKF）和无迹卡尔曼滤波器（UKF）是更为复杂的系统，可以处理系统中的非线性。EKF将非线性问题线性化，而UKF采用统计线性化技术通过采样点线性化随机变量的非线性函数。SORT [22]和Deep-SORT [23]是此类别中的开创性论文。SORT使用匈牙利匹配进行数据关联的多目标跟踪任务，并使用卡尔曼滤波器估计恒定速度运动模型。Deep SORT是这项工作的进一步扩展，作者还在算法中以图像特征的形式添加了外观信息。这两种算法都非常简单，可以轻松地由边缘设备处理。MHT [24]是另一种基于检测的跟踪方法，它维护一小组潜在假设，这可以通过目前可用的准确目标检测器加以促进。

后融合方法可以利用独立开发的现成检测算法作为模块化组件。然而，依赖启发式和后处理技术的后期融合策略在这两个传感器不一致时需要权衡好性能可靠性。

4.3 深度融合

深度融合也被称为特征级融合。在这种方法中，我们以特征的形式融合两个传感器的信息，因此将其视为先前讨论的方法的中间步骤。根据当前的研究工作，这种方法似乎是最具未来潜力的。这是一种基于学习的方法，其中相机和毫米波雷达的特征可以并行计算，然后进行软关联。这种方法可以进一步分为三个部分：

1）基于毫米波雷达图像生成：为了将毫米波雷达信息转化为图像的形式，我们提取并将毫米波雷达的特征转化为类似矩阵的图像信息。这被称为毫米波雷达图像。这些毫米波雷达图像的通道代表了来自毫米波雷达点表示的信息，比如物理量（如距离、速度等）。文献[25]、[26]、[27]、[28]等就是这个方向的工作。然而，由于毫米波雷达点云固有的稀疏性，这种方法并不成功，因为它们无法很好地转化为像素形式的图像矩阵。

2）基于CNN的方法：这个方向的研究主要关注使用卷积神经网络（CNN）从两种不同的传感器模态中进行特征融合。直到2年前，基于CNN的检测器一直是最先进的方法，直到Transformer开始在空间上做出贡献。在CNN的分支中，代表性的工作之一文献[29]使用了一个基于RentinaNet[30]和VGG骨干网络[31]的神经网络。它使用毫米波雷达通道来增强图像信息。该模型通过估计2D框来简化问题。正如文献[29]的作者所称，一个毫米波雷达点所编码的信息量与一个像素的信息量是不同的，我们不能简单地将这种不同的信息提前融合。更优的解决方案是在CNN的深层进行融合，因为这些层中的信息更加压缩且包含更多的相关信息。由于很难抽象地确定哪个深度是最合适的融合深度，作者设计了一个网络，使其可以自行学习融合策略。这些作者还引入了一种称为BlackIn[32]的技术，其中他们使用的是丢弃策略，但是在传感器级别而不是神经元级别。这有助于更充分地利用稀疏的很容易被密集的相机像素所掩盖雷达点信息。

CenterFusion [3]是另一项现代工作，它基于中心点检测框架[33]来检测物体。他们使用一种新颖的基于截锥体的方法解决了关键的数据关联问题，将雷达检测结果关联到相应的物体中心。关联的雷达检测结果用于生成基于雷达的特征图，以补充图像特征，并回归物体的属性，如深度、旋转和速度。他们声称，仅通过添加雷达输入，可以显著改善速度估计，而不需要复杂的时间信息。这项工作的主要问题是它将主要传感器视为相机，并将单纯通过雷达感知到的检测结果直接丢弃。我们在这种方法中还存在另一个问题，它是基于图像中心在BEV（鸟瞰图）中采样雷达点。然而，由于图像网络的输入数据是二维透视视图，不能保证图像网络能够预测出好的BEV中心。

3）基于Transformer的方法：这一类方法通常利用Transformer模块，例如交叉注意力，从不同的模态中交叉关注特征，并形成更精细的特征表示。在CRAFT [5]中，代表性的工作是将图像提议与极坐标系中的雷达点关联起来，以有效处理坐标系和空间属性之间的差异。然后在第二阶段，他们使用连续的基于交叉注意力的特征融合层来在相机和雷达之间共享空间上下文信息。该论文是目前排行榜上的最先进方法之一[4]。MT-DETR是另一种方法，它利用类似的交叉注意力结构来融合跨模态特征。

05 实验

nuScenes [4]是文献中广泛使用的数据集，其传感器设置如图4所示，包括6个校准相机和5个雷达，可以覆盖整个360°场景。在nuScenes的测试集上，对于经典方法的结果如表II所示，结果是经过相机和雷达跟踪后筛选出来的。

用于度量的缩写的关键解释如下：

mAP：平均精度；mATE：平均平移误差；mASE：平均尺度误差；mAOE：平均方向误差；mAVE：平均速度误差；mAAE：平均属性误差；NDS：nuScenes检测得分。

06 进一步拓展

基于最新的多领域BEV（电池电动车辆）感知检测技术的发展，我们将重点介绍未来研究的可能方向。

6.1 Transformer拓展

从基准数据集的趋势来看，很明显，基于Transformer的网络能够建立起视觉和雷达数据之间的正确建模，以获得良好的融合特征表示。即使在仅基于视觉的方法中，Transformer也领先于卷积神经网络。如在II DETR3D [34]和BEVFormer [35]中所强调的，可以很容易地通过雷达点云来初始化查询。可以添加一个新的交叉注意力层来进行雷达图像的交叉关注，而不仅限于视觉特征的交叉关注。

6.2 协同感知

一个相对较新的领域是如何利用多智能体、多模态Transformer来实现协同感知。这种设置需要一个最小的基础设施来实现道路上不同自动驾驶车辆之间的平稳通信。CoBEVT [36]展示了车辆之间的通信如何可提供出色的感知性能的初步证据。他们在OPV2V [37]的V2V感知基准数据集上测试了他们的性能。

07 结论

对于无人驾驶车辆的感知可靠性来说，三维物体检测是我们需要解决的关键挑战之一。事实上，这个问题在现实生活中会变得更加困难。我们需要使用成本低廉的传感器才能将这项技术推广到大众市场，从而证明无人驾驶车辆的生命周期成本比司机操作的出租车/车辆要低。

为了实现这个目标，相机和雷达是我们可以利用的关键传感器。

在本文中，我们首先介绍了背景信息，以了解为什么使用相机和雷达进行BEV物体检测在技术和商业上都是合理的。然后，我们更详细地介绍了相机和雷达输入数据的表示方法。接着，我们对文献和工业界用于相机-雷达融合的最新技术进行了分组介绍，以便读者可以轻松地跟进。我们希望我们的工作能够激发未来在相机-雷达融合方面进行三维物体检测的研究。

1. 大白话用Transformer做BEV 3D目标检测

2. Fast-BEV：简单快速的BEV框架

3. 书籍下载-《自动驾驶中的深度学习和计算机视觉》

4. 视觉3D目标检测，从视觉几何到BEV检测

5. 超详细 BEV 感知技术研究综述、BEV 感知实用工具箱Toolbox 及相关数据集分享

自动驾驶深度学习无人驾驶计算机视觉BEV感知计算机视觉三维视觉

0 人点赞