原文链接: 最新开源!基于LiDAR的位置识别网络OverlapTransformer,RAL/IROS 2022
大家好,今天为大家带来的文章是
OverlapTransformer: An Efficient and Yaw-Angle-Invariant Transformer Network for LiDAR-Based Place Recognition
作者:Junyi Ma, Jun Zhang, Jintao Xu, Rui Ai, Weihao Gu, and Xieyuanli Chen
机构:北理工、毫末智行、波恩大学
来源:RAL/IROS 2022
论文地址:
https://ieeexplore.ieee.org/document/9785497
下载论文,公众号后台回复:202207
代码地址:
https://github.com/haomo-ai/OverlapTransformer
摘要
在本文中,提出了一种高效的激光雷达地点识别算法。OverlapTransformer采用yaw角旋转不变的结构提高自动驾驶车辆多角度地点识别的准确率。借助激光点云球面投影生成的range image相对于原始点云的yaw角旋转等变性,结合OverlapNetLeg对输入进行高度方向的压缩,生成yaw角旋转等变的特征图。为了提高全局描述子对地点的描述能力,利用了不改变yaw角旋转等变性的Transformer结构对特征图进行特异性增强。为将yaw角旋转等变性转换为yaw角旋转不变性,利用了具备对称性的NetVLAD结构,最终输出不受输入点云绕Z轴旋转影响的全局地点识别描述子。
主要工作与贡献
本文的主要贡献为提出了一个轻量的激光雷达地点识别网络OverlapTransformer,它仅利用range image的深度信息来实现快速实时的地点识别。基于Transformer的注意力机制和 NetVLAD的对称性结构,OverlapTransformer 将range image压缩为全局描述子。OverlapTransformer的整体结构设计,确保了生成的全局地点识别描述子具备yaw角旋转不变性,这使得本方法对多角度地点识别具有较强的鲁棒性。
算法流程
图1 OverlapTransformer算法结构
OverlapTransformer由Range Image编码器,Transformer模块,以及全局描述子生成器这三个模块组合而成。如图1所示,首先将三维激光点云通过球面投影转换为二维range image,然后将range image输入到Range Image编码器中进行空间维度的压缩和通道维度的扩张,进而将编码后的结果输入到Transformer模块中进行特征图的特异性增强,然后将特异性增强后的结果与增强前的结果进行通道维度上的拼接,最终输入到基于NetVLAD结构的全局描述子生成器中生成维度为1x256的地点描述子向量。
球面投影与yaw角旋转等变性
一个三维激光点(x, y, z),通过如下公式就可以投影至一个二维的图像像素(u, v),这就是球面投影。具体流程为先将所有三维点投影到以激光雷达为中心的虚拟球面上,然后将虚拟球面切开展平,进而得到range image。range image上的每个像素点都代表激光点的距离信息。
range image本身具备yaw角旋转等变性,即一帧激光点云相对于z轴的旋转等价于本帧range image的平移。图2展示了yaw角旋转等变的简单示例。
图2 yaw角旋转等变性示例
得益于三维点云绕z轴的旋转等价于range image的平移,OverlapTransformer后续的结构能够输出一系列yaw角旋转等变的中间特征图,进而最终将yaw角旋转等变性转化为yaw角旋转不变性,从而保证多角度地点识别的可行性。
range image编码器
利用球面投影将三维点云转换至range image后,将其输入到range image编码器的OverlapNetLeg。range image编码器对原始OverlapNetLeg卷积结构进行修改,以保证后续特征图的旋转等变性。修改的地方在于,range image编码器使用的卷积仅用来压缩高度(height)方向,并不压缩宽度(width)方向;此外,卷积并不使用padding和dropout。得益于对卷积结构的特殊设计,range image编码器所输出的特征图仍然具有yaw角旋转等变性。
Transformer模块
range image编码器的编码结果被输入到Transformer结构中进行特异性增强。range image编码器将特征图的高度压缩至1,宽度方向维度不变,通道方向扩张。将压缩后的特征图输入到Transformer的注意力机制中。使用Transformer模块的目的是为了兼顾全局感受野和局部感受野的信息,增强句子中单词与单词之间的联系,这里使用它来增强被range image编码器编码后的特征之间的联系。需要注意的是,Transformer模块的输出仍然具有yaw角旋转等变性,具体证明可见OverlapTransformer论文。
全局描述子生成器
全局描述子生成器主要由NetVLAD和MLP组成。NetVLAD结构具有对称性,即NetVLAD的输出与输入次序无关。例如,向NetVLAD输入多个向量,这些向量的输入次序并不影响NetVLAD的输出。如前文所说,经过Transformer模块特异性增强后的特征图仍然具备yaw角旋转等变性,因此原始输入点云的旋转仅会导致NetVLAD的输入在特征图的宽度方向上进行平移,也就是仅产生了输入次序的变化,于是NetVLAD的输出是不受原始输入点云旋转的影响的,即它的输出具备yaw角旋转不变性。因此OverlapTransformer最终输出的1-D地点描述子具备yaw角旋转不变性,进而大幅度提升多角度地点识别的成功率。图3通过示例直观验证了OverlapTransformer输出全局描述子的yaw角旋转不变性。
图3 全局描述子yaw角旋转不变性示例
基于Overlap的训练
OverlapTransformer利用基于overlap划分的数据集进行训练。利用overlap作为label进行训练的理念在OverlapNet论文中有所阐述。训练过程采用对比学习的思路,对于一帧query点云,同时向OverlapTransformer输入本帧点云、以及它的kp个正样本和kn个负样本。正样本就是训练集中与query点云的overlap大于0.3的点云,负样本就是训练集中与query点云的overlap小于0.3的点云。对于这(1 kp kn)帧点云,OverlapTransformer将输出13个描述子,然后计算正样本描述子与query描述子之间的距离,得到共kp个距离,然后计算负样本描述子与query描述子之间的距离,得到kn个距离。最终的loss函数如下式所示。
使用overlap而不是点云之间的距离作为衡量正负样本的基准,是因为overlap对于描述激光点云相似度来说是一个更为自然的方式;此外,点云间的overlap对应了后续点云配准的质量,因此基于overlap对是否为同一地点进行判断更有益于后续算法的进行。
实验结果
KITTI上的地点识别结果和Ford Campus上的鲁棒性评估
反向地点识别性能评估
长时间跨度地点识别性能评估
yaw角旋转不变性验证
各模块消融试验
运行速度比较
— 版权声明 —
本公众号原创内容版权属计算机视觉life所有;从公开渠道收集、整理及授权转载的非原创文字、图片和音视频资料,版权属原作者。如果侵权,请联系我们,会及时删除。