FFAM: 用于解释三维探测器的特征分解激活图！

基于LiDAR的3D目标检测最近取得了令人印象深刻的进展，但大多数现有模型都是黑箱模型，缺乏可解释性。之前的解释方法主要关注分析基于图像的模型，并不直接适用于基于LiDAR的3D检测器。在本文中，作者提出了一种_特征分解激活图（FFAM）来为3D检测器生成高质量的视觉解释。FFAM采用非负矩阵分解来生成概念激活图，然后聚合这些图以获得全局视觉解释。为了实现特定目标的视觉解释，作者使用目标目标的特征梯度来细化全局视觉解释。此外，作者引入了一种 Voxel 上采样策略来对齐激活图与输入点云之间的尺度。作者在多个数据集上使用多种检测器对FFAM进行了定性和定量分析。实验结果验证了FFAM产生的高质量视觉解释。代码将可在https://github.com/Say2L/FFAM.git获取。

1 Introduction

近年来，基于激光雷达（LiDAR）的三维目标检测技术迅速发展，广泛应用于自动驾驶、工业自动化和机器人导航等领域。然而，现有的检测方法主要依赖具有高度非线性和复杂结构的深度神经网络。本质上，这些模型可以被视为“黑箱”系统。这种不透明的建模技术阻碍了用户完全信任检测模型，特别是在敏感和高风险领域。因此，迫切需要理解这些内在不透明模型的决策过程。

可视化解释方法已广泛应用于基于深度神经网络的模型分析。这些方法生成显著图，突出影响模型决策的输入图中的关键元素。基于扰动、类激活图（CAM）和基于梯度[27; 23; 24]的方法是可视化解释方法的三个主要类别。

然而，这些方法主要关注基于图像的模型，并不直接适用于基于点云的模型。分析三维检测器的开创性工作是OccAM[18]，它将D-RISE[15]扩展到扰动点云。

作为一种基于扰动的方法，OccAM首先随机采样大量子点云，并测量模型预测的变化。

然而，大量的推理计算使得OccAM在计算上非常密集，采样数量容易影响生成的显著图的质量。

解释三维检测器面临三个主要挑战。

首先，点云本质上是三维（3D）的。生成相应的三维显著图对于准确解释至关重要。

然而，现有方法，例如流行的CAM技术，主要利用网络最后一层的激活图来生成二维显著图。

其次，三维检测器的解释方法应提供对感兴趣的单个目标的详细解释。然而，大多数现有方法产生类特定的显著图，这意味着它们无法专注于解释特定的检测目标。

最后，点云在三维空间中稀疏分布，使得许多基于图像的解释方法所采用的线性插值无效。

为了解决上述挑战，本文引入了一种特征分解激活图（FFAM）来获取三维检测器的可视化解释。具体来说，为了解决第一个挑战，FFAM利用检测器[35]中的三维特征图，而不是依赖最后一层的鸟瞰图（BEV）特征图。

受到DFF[3]的启发，作者采用非负矩阵分解（NMF）来揭示这些三维特征图中的潜在语义概念。通常，具有有效检测线索的三维检测器中的点特征包含更丰富的语义概念。

因此，作者将概念激活图聚合以生成全局概念激活图，突出重要的点，如图1（a）所示。为了解决获取特定目标显著图的第二个挑战，作者利用由特定目标损失生成的三维特征图的梯度来细化全局概念激活图。这个过程在图1（b）中展示，显示了预期的效果。为了应对最后一个挑战，作者引入了一种 Voxel 上采样策略，从稀疏邻居中采样值，确保准确生成显著图。

作者将FFAM与当前最先进的方法OccAM[18]进行了比较，同时也与其他基于图像的解释方法包括Grad-CAM[19]和ODAM[38]进行了比较。作者在KITTI[7]和Waymo Open[25]数据集上进行了实验，使用的检测器包括SECOND[35]和CenterPoint[36]。定性和定量的结果表明，作者的FFAM显著优于之前的方法。本工作的贡献可以总结如下：

作者提出了一种特征分解激活图（FFAM）方法，用于获取高质量的三维检测器可视化解释。
作者首次在解释点云检测器时引入了NMF。通过聚合不同的概念激活图，作者获得了强调具有重大检测线索点的全局概念激活图。
作者利用特定目标损失的特征梯度来细化全局概念激活图，从而生成特定目标的显著图。
提出了一种 Voxel 上采样策略来上采样稀疏 Voxel ，从而实现激活图与输入点云之间的尺度对齐。

2 Related Work

图像基础模型的解释方法。现有的解释方法主要关注图像分类模型。基于扰动的解释方法[26; 14; 4; 30]广泛应用于解释图像分类模型。其核心思想是通过扰动模型的输入并观察输出变化，为扰动特征组件分配重要性得分。基于CAM的方法[40; 19; 1; 9]通过将中间层的激活图线性组合并按其各自贡献加权，生成显著性图。一些方法（例如Score-CAM [32]和Ablation-CAM [17]）结合了基于扰动和基于CAM的思想，以消除对反向传播梯度的依赖。此外，基于梯度的解释方法[22; 27; 23; 24]使用梯度来量化输入对网络预测的影响。较高的梯度值表明相应输入元素的重要性更大。此外，特征分解技术如主成分分析（PCA）和非负矩阵分解（NMF）可以揭示深层特征中的潜在模式。DFF [3]使用NMF在图像内定位语义概念。与分类器的解释方法相比，只有少数方法研究了目标检测模型的解释。上述方法生成了类特定的解释，这对目标检测模型来说并不可行。D-RISE [15]采用一种扰动策略，通过定义一个检测相似性度量来生成实例特定的解释。[34]中利用有向无环AND-OR图（AOG）来揭示目标检测器中的潜在结构。G-CAME [13]结合了激活图与梯度的高斯核来生成预测边界框的显著性图。ODAM [38]使用目标目标的像素梯度来加权激活图，从而生成实例特定的显著性图。

基于点云的模型的解释方法。与基于图像的解释方法相比，基于点云模型的解释领域相对不发达。现有方法主要关注点云分类模型。例如，[39]利用损失梯度来衡量分类器中每个点的贡献。[8]应用基于梯度的策略来分析网络的中间特征。另一种方法[28]结合了生成模型与激活最大化方法[6]来获得点云网络的全球解释。

对于3D检测器的解释研究仍然非常有限。一种基于扰动的OccAM [18]方法通过测试模型与输入点云的随机生成子集来估计单个点的重要性。然而，3D空间中的点规模相当大，通过LiDAR获取的点分布随距离变化。这些问题导致基于扰动的方法面临以下挑战：(1)难以穷举扰动点云，限制了视觉解释的质量；(2)生成充足的随机点子集需要多次迭代，从而降低了效率。受到特征分解技术[3]和基于梯度方法[27; 13; 38]的启发，作者提出了一种名为FFAM的解释方法。它旨在为3D检测器高效生成高质量的显著性图。

基于LiDAR的3D目标检测。这些方法可以分为两大类：单阶段和双阶段检测器。单阶段检测器通常采用简单的网络架构以达到高速度。例如，SECOND [35]利用一种提出的3D稀疏卷积技术高效编码稀疏 Voxel 特征。PointPillars [10]将点云划分为柱状 Voxel ，省去了3D卷积层的需要，实现了快速推理速度。VoxelNeXt [2]引入了全稀疏卷积网络，消除了稀疏到密集转换的需求。双阶段检测器通常增加一个额外的阶段来细化由单阶段网络生成的 Proposal 。PointRCNN [21]利用PointNet [16]从原始点生成 Proposal ，然后在第二阶段细化边界框。PV-RCNN [20]结合了基于 Voxel 的 Proposal 网络与基于点的细化网络。CenterPoint [36]从 Proposal 边界框的表面中心提取点特征进行细化。Voxel R-CNN [5]利用3D主干网的 Voxel 特征来细化 Proposal 。作者的解释方法FFAM可适应于单阶段和双阶段检测器，而不受检测器类型的限制。作者主要在广泛使用的检测器上进行实验，包括单阶段检测器SECOND和双阶段检测器CenterPoint。

3 Method

三维检测器的视觉解释目标是为每个检测生成一个显著图。给定一个点云，显著图由个值组成，这些值表示点云中每个点对于检测的重要性。检测包括边界框、置信度分数和类别标签。作者将检测表示如下：

其中表示中心位置，代表目标大小（即长度、宽度、高度），和分别表示置信度分数和类别标签。

作者提出FFAM方法，用于为三维检测器生成点云格式的显著图。作者方法的概述如图2所示。它可以分为以下三个阶段：(1) 特征分解（第3.1节）；(2) 梯度加权（第3.2节）；(3) Voxel 上采样（第3.3节）。

Feature Factorization Activation Map

矩阵分解广泛应用于推荐系统、图像处理和自然语言处理等领域，用于提取潜在特征和降低维度。作为一种经典的矩阵分解算法，非负矩阵分解（NMF）通过将非负矩阵分解为两个非负矩阵的乘积来近似一个非负矩阵。通过这种分解，NMF可以在原始矩阵中发现潜在模式和概念，并提取最重要的特征。给定一个非负矩阵，NMF检索一个近似，如下所示：

其中和分别表示两个非负矩阵。是一个预定义的参数，表示矩阵A中的潜在概念数量。的每一行表示一个概念向量。这些概念向量通常有很好的解释性，与目标部分特征相关，例如轮子、车门、车顶等，遵循的非负可加性属性。此外，矩阵的每一行（其中）表示中不同概念向量的组合权重。使用权重结合这些概念向量，作者得到的第行特征。

在本文中，作者采用非负矩阵分解来处理检测器中3D Backbone 网络内的 Voxel 特征图。通常，包含关键检测线索的 Voxel 特征倾向于在检测器中激活更多的概念（例如，车牌、车前、车边缘）。因此，将中的所有权重汇总表示了 Voxel 特征图中第个 Voxel 特征的重要性，如图1(a)所示。

具体来说，给定一个 Voxel 特征图，其中表示 Voxel 数量，表示通道数，中的一个 Voxel 特征可以分解如下：

进一步，作者通过汇总概念权重矩阵来获得全局概念激活图，如下所示：

其中表示的第列。得到的结果从全局角度强调具有多个激活概念的点。由于检测网络中的下采样操作，的粒度通常是粗糙的。因此，需要进一步处理以获得特定于目标且细粒度的激活图，如第3.2节和第3.3节所述。

Object-Specific Gradient Weighting

在3D检测器中，输出包含大量检测。为了获得特定于目标的激活图，作者为特定检测建立了一个损失函数。具体来说，给定一个检测，作者创建一个 Baseline 检测来计算损失：

为了简单起见，作者使用L1损失函数，并将中的所有值设为0。然后作者获得特征图的梯度图：

考虑从到的优化过程，矩阵表示减少损失的最优方向。如果作者基于梯度图迭代更新特征图，那么与检测相关的信息将会减少。另外，通过利用，作者可以识别特征图中包含关于线索的位置。因此，可以获得针对的目标特定激活图，如下所示：

其中指的是的第列，而表示归一化操作，表示逐元素乘法。通过将损失函数修改为检测中的特定属性，作者可以检查检测器在预测属性时关注的具体点。

Voxel Upsampling

由于3D检测网络中的下采样操作，激活图的大小通常小于输入点云的大小。因此，对激活图进行上采样变得必要。然而，与2D图像不同，对3D稀疏 Voxel 进行线性插值的上采样存在挑战。为此，作者受到[5]提出的 Voxel Query 技术的启发，并引入了一种针对3D稀疏 Voxel 的上采样策略。具体来说，作者将 Voxel 大小定义为，并将点云在三个轴上的范围分别定义为、和。给定一个点，作者计算所属 Voxel 的坐标如下：

然后，作者使用曼哈顿距离控制 Query 范围，在激活图上 Query 的邻近 Voxel ：

其中是一个邻近 Voxel 的坐标，是两个 Voxel 之间的曼哈顿距离。作者在距离阈值内最多采样个邻近 Voxel 。最后，点的显著分数计算如下：

其中是邻近 Voxel 集合，表示具有标准正态分布的高斯核，表示激活图上 Voxel 的值。

4 Experiments

在本节中，作者将作者的FFAM与现有的解释方法进行比较，包括基于图像模型的Grad-CAM [19]和ODAM [38]，以及基于点云模型的最先进解释方法OccAM [18]。作者采用了两个数据集进行评估：KITTI [7]，这是一个广泛使用的自动驾驶数据集，以及包含复杂多目标场景的Waymo Open [25]。对于KITTI，作者在SECOND [35]上进行了实验。对于Waymo Open，作者主要在CenterPoint [36]上进行评估。实验是使用PyTorch和RTX 3090 GPU进行的。检测器和OccAM的超参数与它们的官方实现保持一致。在NMF中使用的参数设置为64。曼哈顿距离阈值和 Voxel 上采样的参数分别设置为2和16。作者使用3D Backbone 网络的第三个块的3D特征图作为FFAM的输入。超参数分析和消融研究分别在附录A.1和附录A.4中。### 定性结果

为了验证作者FFAM的可解释性，作者可视化了一些目标的解释。作者还可视化了不同类别的平均显著图，以研究特定目标属性的三维检测器的潜在模式。

显著图的可视化。作者在图3(a)中比较了由FFAM和OccAM [18]生成的汽车、行人和自行车的视觉解释。这些检测结果是由在KITTI [7]上训练的SECOND [35]检测器获得的。由于随机 Mask 机制，OccAM显示出显著的背景噪声。相比之下，作者的ODAM显示出强大的生成清晰、独特的目标特定显著图的能力。作者观察到检测器还从背景和相邻目标捕捉到相关线索。此外，作者在图3(b)中比较了在Waymo Open [25]上使用CenterPoint [36]检测器时FFAM和OccAM生成的显著图。OccAM生成的显著图在解释预期目标时显得吃力。与KITTI相比，它们在背景上有更多高度显著的点。作者将这种差异归因于Waymo Open样本中点的数量更多，这挑战了随机 Mask 机制有效地采样不同的点 Mask 。相反，作者的FFAM在Waymo Open上始终生成高质量的显著图。

平均显著性图。 为了进一步探索检测器的检测模式并验证FFAM的解释性，作者对特定类别的显著性图进行了平均，包括汽车、行人和自行车。作者使用在KITTI [7]上训练的SECOND作为检测器。为此，作者首先将所有框和相关点缩放到统一大小，然后根据它们的中心位置和旋转角度进行对齐。接下来，作者对生成的点云进行 Voxel 化，并计算每个 Voxel 内各个点的平均显著性值。针对不同目标属性的显著性图结果展示在图4中。如图4的前两行所示，检测器主要根据位于汽车四个角落的点来识别和定位汽车目标。通过分析这些点的特征，检测器推理出汽车的各个属性，例如其中心位置、长度、宽度、旋转角度和分类得分。这是因为户外点云中的汽车目标通常是残缺的，而且它们的角落经常被激光雷达扫描并用作关键特征。然而，也有特殊情况，如图4倒数第二列的前两行所示，高度属性主要是根据汽车顶部的点预测的。如图4的第三行所示，检测器主要根据分布在人头和肩部区域的点来预测行人目标。此外，如图4的最后一行所示，检测器主要根据分布在人体 Head 和背部的点来识别自行车目标。作者还观察到，预测自行车高度在很大程度上依赖于分布在 Head 的点，类似于预测汽车高度的方式。其他检测器的平均显著性图见附录A.2。### 定量结果

作者采用删除、插入[14; 15; 38]，视觉解释准确度(VEA)[12]和指向游戏(PG)来评估作者的FFAM。在KITTI上训练的SECOND用作 Baseline 检测器。遵循之前的工作[38]，作者使用评估数据集中检测良好的目标作为要解释的主题。特别是，如果一个预测目标的IoU与其 GT 值的IoU大于[0,7, 0.5, 0.5]，则认为该目标检测良好，分别是汽车、行人和自行车类别。关于Waymo Open的结果见附录A.3。

删除和插入常用于评估基于图像的检测模型的解释方法[15; 38]。删除涉及从场景中逐个移除高度显著的元素，测量模型预测与原始预测偏离的速度。插入则逐步向空场景中添加显著元素，测量预测迅速接近原始的速度。考虑到图像中的像素与点云中的点之间的相似性，作者采用删除和插入来评估FFAM。在户外点云场景中，与全局场景相比，目标相对较小，因此作者只操作目标边界框中心两侧两倍对角线长度的点。作者使用预测与 GT 之间的IoU作为衡量分数。图5(a-b)展示了平均IoU曲线，表2报告了不同类别下的曲线下面积(AUC)。较低的删除AUC表示IoU得分下降更快，反映出移除显著点的影响更为明显。相反，较高的插入AUC表示每步IoU得分增加更大，表明添加显著点的重要性。作者的方法在删除和插入方面的性能下降最快，增加最大，显示出作者在显著性图中所强调的点对检测器预测的影响大于其他方法。

视觉解释准确性（VEA）。VEA计算了 GT Mask 与显著图之间的点级交并比（IoU），显著图被阈值化为不同的值。不同目标类别的VEA结果可以在表1中找到。值得注意的是，作者的FFAM在所有类别中获得了最高的VEA分数，表明FFAM生成的视觉解释具有紧凑性。另一方面，OccAM和Grad-CAM在这个指标上的表现较低。OccAM倾向于标记大量的背景点，而Grad-CAM是一种特定于类的视觉解释方法，这可能是它们相对表现较弱的原因。

指点游戏。为了进一步评估FFAM的定位能力，作者展示了指点游戏（PG）的结果。在这个评估中，如果具有最高显著值的点位于 GT 边界框内，则记录一次命中，否则记为未命中。PG指标通过计算命中次数与命中和未命中总次数的比率来衡量显著图的准确性。此外，作者报告了在[32]中提出的基于能量的PG指标（enPG），该指标考虑了 GT 区域内的能量与全局场景的比较。如表3所示，作者的FFAM在所有指标上都超过了先前的方法，表明它具有专注于解释目标的卓越能力。值得注意的是，Grad-CAM在PG和enPG上的表现都很差，这与表1中呈现的VEA结果一致。这表明仅靠基于分类的解释方法不足以为检测器生成有意义的解释。

Modes of False Positive

FFAM可以用来识别检测器的误报模式。如果检测被正确分类，并且预测框与 GT 框之间的交并比（IoU）超过一个阈值，则认为这是一个真正例。否则，它就是一个误报。对于汽车、行人和自行车目标，IoU阈值分别为0.7、0.5和0.5，与KITTI官方指标[7]一致。为了揭示检测模式，作者分别为真正例和误报计算平均显著性图。结果如图6所示。首先，作者观察到误报的平均显著性图与真正例的相似。检测器预测误报是因为它检测到了与真正例相似的图案。其次，误报通常被更多的噪声点所包围，点的密度大约是真正例的三分之一。作者认为噪声和稀疏密度可能是导致误报出现的重要因素。最后，在真正例中，汽车、行人和自行车目标的比例大约是36:5:2，而在误报中，这个比例是13:8:2。这表明与行人和自行车目标相比，汽车目标不容易产生误报。