标题:Probabilistic Semantic Mapping for Urban Autonomous Driving Applications
作者:David Paz, Hengyuan Zhang, Qinru Li
●论文摘要
近年来统计学和计算机能力的进步使自动驾驶技术以更快的速度发展并得到广泛应用。虽然很多介绍的许多地图体系结构都能够在高度动态的环境下运行,但由于与高精(HD)地图相关的可扩展性成本,其中许多体系结构都局限于较小规模的部署,并且需要经常维护。高精地图为自动驾驶汽车安全驾驶提供了关键信息。然而,创建高精地图的传统方法涉及繁琐的手动标记物体。为了解决这一问题,我们将二维图像语义分割与从一个相对便宜的16线激光雷达传感器采集的预构建点云地图相结合,在鸟瞰图中构建局部概率语义地图,对驾驶环境中的道路、人行道和车道等静态路标进行编码。从城市环境中采集的数据进行的实验,表明该模型可以扩展为将道路特征自动化的合并到具有潜在未来工作方向的HD地图中。
●主要贡献
在HD地图生成过程中,从数据中提取语义属性是最费时的工作。自动化这一过程的模型可以改进高精地图的生成,降低劳动力成本,提高驾驶安全性。
该方案的重点是利用16线激光雷达构建的稠密点云地图和来自深度神经网络的最新语义标记图像(仅在公开可用的数据集上进行训练),在城市驾驶环境中自动生成密集的概率语义图,为道路、车道、人行道提供可靠的标签。通过与自动驾驶车辆上的离线真实高精地图的比较,表明该模型能够识别道路中的语义特征,并在三维空间中进行精确定位。
●论文内容分析与图集
生成概率语义地图的道路特征提取和高清地图应用的处理流程
通过几何变换将局部点云地图和语义图像融合在一起,我们提出了一种概率映射,它可以解释每个网格的标签分布。如图1所示,整体架构由语义分割、点云语义关联、语义映射和地图转换组成。
图像语义分割
使用DeepLabV3Plus[6]网络结构从二维图像中提取语义信息,训练标签如下
点云语义关联
在给定语义图像的情况下,估计语义像素数据的相对深度可以帮助我们重建具有语义标签的三维场景。然而,这些信息通常不可用。基于多视角几何的深度估计需要显著的特征,这在道路上或当照明条件变化很大时容易出错。即使使用我们实时获得的激光雷达扫描,16线激光雷达的稀疏分辨率也使得推断潜在几何结构变得困难。相反,我们的方法提取密集点云地图的小区域,并将其投影到语义分割的图像中以检索深度信息。由于建立如此密集的点地图只需要驾车经过该地区一次,这一过程比人工标记成本更低。
构建概率语义地图
虽然带有语义标签的点云提供了场景的三维重建,但是这些标签也会受到噪声和语义标签小波动的影响。为了解决这一问题,使用语义点云构建并更新局部概率地图。
斑马线和侧车道基于表面反射率具有更高的强度,表明该区域属于特定标签的可能性更高。因此,我们将概率的对数与该区域的强度联系起来。
概率地图的转换
对于每一帧,我们用语义点云数据更新概率图,但我们并不是每帧都构造一个全新的局部地图。因为我们只考虑局部地图,通常我们的旧地图和新地图都有大多数重叠,这种转换可以简化为单应性,使得加快了过程。
●实验结果
车身传感器配置
不将强度融合到语义映射(上图)和融合强度到概率更新(底部图像)中的结果对比
一系列局部图融合展示了概率地图图的自动校正能力
使用实时激光雷达扫描进行语义地图构建时。下图显示,当汽车开得更快时,地图变得更加稀疏。
如前所述,提取深度信息的方法是使用激光雷达实时生成的点云数据。采用相似的方法,将点云投影到语义图像框架上,建立语义点云和图像语义地图之间的关联。
与人工标注的高精地图比较:白框标注人行横道,粉色区域对应语义点云投影。
一个由多个局部语义地图图组成的较大的地图,放大后的图像突出了人行道的定位。
显示在点云地图顶层的语义地图
●总结
通过融合图像帧上丰富语义标签的信息,我们与人工标注地图的比较表明,这项工作有效地引入了一种用于识别道路特征并在三维空间中进行定位的统计方法,可用于自动标注人行道、车道线、可行区域等。这些特性可用于独立于预定义的HD地图格式用于生成HD地图,并扩展了通常用于路径跟踪算法的中心车道标识。