缩小LiDAR点云语义分割中的域差异

2020-09-03 14:56:28 浏览数 (1)

Google 的新思路,通过先从稀疏的激光雷达点云中恢复完整3D表面来实现。

作者:Michael Sarazen 编译:McGL

在开发自动驾驶汽车的激烈竞争中,激光雷达(LiDAR),这种类似雷达的激光系统,已经成为最关键的硬件组件之一。激光雷达系统生成精确且对计算机友好的点云数据作为3D 世界地图,以改进自动驾驶汽车的感知和安全性。然而,激光雷达点云的语义分割这个重要任务仍然是AI研究人员的重大挑战。标注3D点云数据的缺乏阻碍了深层神经网络在语义分割任务上的进一步性能提高。尽管一些自动驾驶公司已经发布了一些数据集,但是激光雷达传感器的不同配置和其他领域的差异不可避免地导致了在一个数据集上训练的深度网络不能在其它数据集上表现良好的问题。为了弥补激光雷达传感器中3D点云采样的差异所造成的域差异,谷歌的一个研究小组最近提出了一种新颖的“完全标记”域适应方法。

在论文 《Complete & Label: A Domain Adaptation Approach to Semantic Segmentation of LiDAR Point Clouds》 中,研究人员确认了一个关键的发现,启发了新的域适应方法的设计: 激光雷达样本具有潜在的几何结构,利用了这些结构的3D模型的域适应更有效。因此,研究小组假设了一个由3D表面组成的物理世界,并将领域适应挑战作为一个3D表面补全任务来处理。论文中写道:“如果我们能够从稀疏的激光雷达点样本中恢复底层的完整3D 表面,并在完整表面上训练网络,那么我们就可以利用任何雷达扫描仪的标注数据来处理其它任何数据”。该团队设计了一个稀疏体素补全网络(Sparse Voxel Completion Network (SVCN))来完成补全稀疏点云的3D表面。

网络结构包括两个阶段: 表面补全阶段和语义标注阶段。与语义标签不同,SVCN 获取训练对不需要人工标签,因为表面补全可以通过自监督学习,如多视点观察或合成数据集。该团队通过从多个激光雷达数据帧重建的完整表面有监督训练补全网络,2400个完整的场景点云用于训练,200个用于测试。一旦恢复了3D 表面,研究人员使用一个稀疏的卷积U-Net预测完成表面上的每个体素(voxel)的语义标注。在3D计算机图形中,体素是定义3D空间中一个点的图形信息单元。

研究小组通过对不同自动驾驶车辆的驾驶数据集进行实验,评估了新的域适应方法的有效性,结果显示,新的域适应方法的性能比以前的域适应方法提高了8.2%-36.6% 。例如,在 Waymo 开放数据集上训练的网络在 nuScenes 数据集上执行语义分割任务,使用提出的方法mIoU 提升了10.4% 。提出的域自适应方案针对激光雷达传感器三维点云中的域差异。它提升语义分割的能力显示了其在自动驾驶、语义映射和施工现场监控等应用的巨大潜力。

原文:https://medium.com/syncedreview/google-bridges-domain-gaps-in-semantic-segmentation-of-lidar-point-clouds-92b92a8c67c4

0 人点赞