无需人工标注的 3D 目标检测：基于视觉语言引导的无监督学习方法！

准确的三维目标检测对于自动驾驶系统至关重要。为了实现最先进的表现,检测器的监督训练需要大量的人工标注数据,但获取这些数据代价高昂且受限于预定义的物体类别。为了减轻手动标注的劳动,一些 recent 无监督目标检测方法为移动目标生成无监督的伪标签,随后利用这些伪标签来帮助检测器进行增强。尽管这些方法取得了出色的结果,但这些方法没有提供分类标签,并且对静态目标适用性不强。此外,这些方法大部分受到与同一场景的多个行驶轨迹或来自精确校准和同步的摄像头设置的图像的约束。为了克服这些限制,作者提出了一种名为 Vision-Language Guided Unsupervised 3D Detection 的视觉语言引导的无监督 3D 检测方法,它完全基于激光雷达点云运行。作者将 CLIP 知识转移到分类静止和移动目标的点簇,作者通过利用激光雷达点云的内置时空信息进行聚类、跟踪,以及边界框和标签的细化来发现这些点簇。作者的方法在 Waymo Open Dataset ( AP) 和 Argoverse 2 ( AP) 上击败了当前最先进的无监督 3D 目标检测器,并且提供的分类标签不仅仅依赖于物体大小的假设,这标志着该领域的重大进步。代码将在 https://github.com/chreisinger/ViLGOD 可用。

Introduction

为了安全和有效率的路径规划，自主车辆依赖于3D目标检测，即它们必须准确识别周围交通环境中的目标（例如车辆、骑自行车的人、步行的人）的地点、尺寸和类型。最近的一些3D目标检测器在LiDAR点云上运行，需要通过大量手动标注的数据进行监督训练，这在获得足够质量水平的数据方面既耗时又昂贵。此外，尽管其性能令人印象深刻，但全监督的3D检测器缺乏应对不断变化的目标数据的灵活性，例如由不同的传感器设置。

然而，LiDAR测量的特征为将点集群投影到2D视觉语言模型中带来两个独特挑战（参见图1），这现有方法无法应对，这些方法只能处理CAD点云[42,43]：

LiDAR扫描是2.5D的，即只有传感器可见到的表面被测量。这种不完整的重建限制了视点种类的多样性，而[42,43]需要完全利用2D视觉嵌入来充分利用。
LiDAR扫描在与传感器距离变大时变得越来越稀疏，识别投影目标变得越来越困难。为了解决这些问题，作者利用LiDAR记录的连续性。作者设计了一个简单但有效的跟踪和传播模块，该模块可以生成相同目标的不同的时间视图。这个模块一方面可以增强目标的分类强度，另一方面可以传播类别。这使得作者可以在 tracks 内创建边界框并进行传播。

作者的贡献有四个方面：

(1) ViLGOD是第一个无监督但分类意识的三维目标检测方法，用于户外LiDAR点云，它不仅提供基于目标大小启发式的分类标签；

(2) ViLGOD运行在LiDAR点云的单一模态上，不需要在整个场景中进行多次驱动，也不需要额外的摄像头图像；

(3) 除了运动物体，ViLGOD还通过CLIP分类定位静态物体，从而在没有重复自训练周期的需要的情况下提供有价值的伪标签；

(4) 最后，作者在Waymo Open Dataset和Argoverse 2上进行了详细的评估，结果表明，即使在无类别设置中，ViLGOD也超过了当前最先进的无监督3D目标检测器。

2 Related Work

全监督基于LiDAR的3D目标检测。当前最先进的3D目标检测网络通常依赖于监督学习方法和对大量人工标注数据的广泛应用[44,45,46]来实现最佳性能。这些方法在处理稀疏且无序的LiDAR点云输入时，可以大致分为网格基、点基[44,45,46,47]和混合方法。

标签高效的3D目标检测。弱监督方法从辅助信息辅助的有限标注数据中学习，通常通过图像 Level 的标签、粗糙的目标位置或场景 Level 标注（而不是3D边界框）[44,45,46,47,48,49]进行间接监督。另一方面，半监督方法利用少量标记数据结合大量未标注数据[44,45,46,47,48]。最后，无监督方法直接从原始无标记数据中学习，利用数据固有的结构和分布以及几何属性。这些方法经常采用聚类技术[44,45]，对比学习[44,45,46,47]或遮挡[44,45,46,47]来从数据中衍生出有意义的表示。

无监督3D目标检测。LiDAR数据中的早期3D目标检测方法[44,45,46]引入了通用 Pipeline - 地面去除，聚类，边界框拟合和跟踪 - 它是所有最近无监督方法的初始检测基础[D 。

为了实现空间相关目标的无监督聚类，作者首先从每个激光雷达扫描中删除地面点。具体而言，作者使用Patchwork 进行地面分割。

Vision-Language Guided Object Classification

不仅正确分类物体很重要，而且其大小和位置也很重要。为了可靠地估计被遮挡或观察不完整的物体的边界框，作者应用了时间细化：作者首先计算包含跟踪中最多个聚类点的个框候选物的中位数框。对于静态物体跟踪，作者将这个框估计沿着中位数位置传播，并从个框中得到取向作为多数投票。对于移动物体跟踪，作者遵循 OYSTER []，沿着跟踪方向传播框，并将框与中心对齐，而与机动车辆最近的角落对齐。

Self-training

作者提供的无监督检测方法为作者任何任意3D目标检测架构的无监督训练提供了高质量的伪标签。作者通过利用无监督检测结果在无花哨的情况下将其作为有监督学习设置中的伪地面真相来实现这一点。特别地，作者在有监督和类感知的方式下使用作者的伪标签来训练Centerpoint。作者既不进行多次训练和精炼（即分配 GT 标签），也不使用多个迭代。最后，作者对作者的ViLGOD的单独组件进行了详细的消融分析。

数据集。作者在具有挑战性的Waymo Open Dataset（WOD）[[]和[ Argoverse 2 [].WOD包含1000个公开可用序列，每个序列约包含200帧。它分为798个训练和202个验证序列。作者遵循[[]的评估协议，评估位于自车的100m×40m区域，并报告在3D和BEV中的平均精确度（AP）和交集与并集（IoU）阈值0.4]]。根据[[]，]遵循]，对于移动速度超过1m/s的物体，作者将其视为_移动_。完整的评估和额外的APH（平均精确度和航向）分数包含在补充材料中。Argoverse 2包含700个训练和150个验证序列，每个序列约为150帧。作者遵循[[]的评估协议并评估位于自车的100m×100m区域，并报告在BEV中的AP和IoU阈值0.3。为了便于比较，作者将具有移动能力的物体合并为单一类_可移动_.在WOD中，这影响了所有相关的物体类别；在Argoverse 2中，作者排除了例如_Barrier_，_Traffic cone_，但作者还包括了_bicycle_，因为该物体在没有骑手的情况下是无法移动的（单独的_cyclist_类别）。

实现细节。作者在[OpenPCDet []]（v0.6.0）的顶部构建了作者的检测 Pipeline ，并使用提供的基模型进行了所有实验。在本次实验中，作者使用Centerpoint []进行有监督伪标签训练。对于这些实验，作者遵循OpenPCDet的标准协议，并使用Adam []在One-cycle策略[[]中optimize []，最大学习率为0.003的One-cycle政策[ []进行优化。然而，作者只在训练数据中训练了50%的天轮，并且没有从伪标签数据库中采样。作者在4个NVIDIA（r）RTX（tm）A6000 GPU上进行了所有实验。补充材料中可以找到更多关于实现细节和参数的详细信息。

忽视类的结果。在WOD验证集上的无监督3D目标检测结果如表1所示。所有无监督方法之间的直接比较显示了它们的目标发现能力：作者的视觉语言指导使作者能够通过单次迭代将运动和静态目标定位到位，而无需任何再训练周期。通过利用时间连贯性，作者还可以获得准确的3D边界框估计，如图所示AP BEV到AP 3D之间的较小差距。因此，作者的ViLGOD在获取可用于训练检测器的目标候选方面表现出色。为了证明这一点，作者使用这些目标 Proposal 从头训练了一个Centerpoint [E]检测器（记为ViLGOD-CP）。表1中的自训练结果显示，作者的目标 Proposal 导致了显著提高的检测性能，尽管仅对Centerpoint进行了10次迭代训练（没有从伪标签数据库中扩充样本）。

注意类的结果。表2显示了作者与已分配地验（GT）标签的现有类无关的无监督检测方法进行零样本检测的结果。一致性高的AP 3D评分表明作者的ViLGOD提供了准确的目标 Proposal ，非常适合训练检测器。特别地，作者的ViLGOD使首次能够在有效的方式下：无需任何手动人类干预且无需耗时重复的自训练周期来训练具有注意力的检测器。值得一提的是，作者的方法在检测易受道路使用者（如行人和骑自行车者）方面取得了显著的改进。

Ablation Study。作者进行了一次详细的Ablation Study来显示作者的方法的每个步骤的贡献。表3列出了作者在WOD验证集上进行的零样本检测结果（伪标签）。除了无监督检测结果外，作者还提供了类知觉的结果，因为作者的方法可以直接为零图片提供类标签预测，从而允许进行更好的分析。

Conclusion

作者提出了ViLGOD，这是首个完全无监督的、但却具有类别意识的3D目标检测方法，适用于激光雷达数据。作者将视觉语言模型的强大表示能力与静态和运动目标的无监督目标发现相结合，这样就可以实现零样本检测。这些伪标签在激光雷达序列中传播后可以形成可靠的结果。这些伪标签可以直接用于有监督地训练3D目标检测器，无需进行多次自训练迭代。作者的评估结果表明，这种完全无监督的数据探索策略具有显著降低获取训练当前最先进检测器所需的手动标注成本的潜力。

参考

[1].Vision-Language Guidance for LiDAR-based Unsupervised 3D Object Detection.

数据库无监督学习模型数据性能

0 人点赞