激光雷达深度补全

2019-08-26 17:05:57 浏览数 (1)

SIGAI特约作者

meteorshowers

研究方向:点云语意分割、点云检测、双目匹配

摘要

对于自动驾驶汽车和机器人,使用激光雷达是必不可少的,以实现精确的深度预测。许多应用程序依赖于周围环境的意识,并使用深度信息来推理和做出相应的反应。一方面,单目深度预测方法无法生成绝对和精确的深度图。另一方面,双目立体匹配方法仍然明显优于基于LiDAR的方法。深度补全任务的目标是从稀疏和不规则点云生成密集的深度预测,然后将预测的深度信息映射到2D平面。最近有一些优秀的工作,提出了一种精确完成RGB图像引导的稀疏LiDAR图的新方法。

[1]工作是较早一篇提出的激光雷达深度补全的工作,将深度补全设定为回归问题。

[2]工作提出了一个新的框架,它提取全局和局部信息,以生成适当的深度图。[2]认为简单的深度完成不需要深层网络。另外,[2]还提出了一种融合方法,该方法使用来自单目相机的RGB图片引导,以便利用对象信息并纠正稀疏输入中的错误。这显着提高了准确性。此外,其利用信息掩模来考虑每种模态的深度预测的不确定性。这种融合方法优于现有技术,并在KITTI深度完成基准测试中排名第一。

[3]受到室内深度补全工作的启发,设计网络估计表面法线作为中间特征进而去估计稠密深度,该方法可以端到端训练。随着修改编码器 - 解码器结构,网络有效地融合了密集的彩色图像和稀疏的LiDAR深度。为了应对户外场景的挑战,[3]网络预测了一个置信掩模来处理前景附近的混合LiDAR信号,并通过注意力图来融合彩色图像和表面法线对于深度的预测结果,这样可以提高特别是远距离区域的深度精度。

介绍

深度补全预测是将来自稀疏点云的深度信息补全生成的密集深度图。在许多计算机视觉应用中,精确的深度值至关重要。近年来,由于工业需求,这项任务受到关注。其他计算机视觉任务包括3D对象检测和跟踪,2D或3D语义分割和SLAM可以利用这些精确的深度线索,从而在这些领域中获得更好的准确性。这项工作将侧重于自动驾驶汽车场景,即同时使用稀疏的LiDAR和单目RGB图像。这里,该任务希望准确地检测和分离近距离和远距离的物体。LiDAR能够输出周围环境的点云,但是LiDAR有限量的扫描线导致输出数据的高度稀疏。具有64条扫描线的LiDAR是常见的传感数据但是仍然很昂贵。该任务的输入的不规则性和稀疏性使这项任务明显区别于其他任务。由于工业界目前大量应用LiDAR传感器,因此该任务的工业相关性无可争辩,这也导致该任务成为一个非常活跃的研究领域。这项任务具有挑战性的原因有三个方面。首先,输入是随机分布的,这使得直接卷积的使用变得困难。其次,多种形式的组合仍然是研究的活跃领域,因为传感器融合的多种组合是可能的,即早期和/或晚期融合。第三,使用的标注信息仅有需要的完整深度的一部分。因为逐像素的测量深度是极其昂贵的。

工作[2]的贡献主要分为三点:

(1)结合全局和局部信息来准确地完成和纠正稀疏输入,使得单目RGB图像可用作该深度完成任务的指导。

(2)以无监督的方式为全局和局部分支学习确定性图。预测的深度图由它们各自的信度图加权。这种后期融合方法是[2]框架的基本组成部分。

(3)该方法在使用和不使用RGB图像的情况下在KITTI深度完成基准上排名第一。此外,它不需要任何额外的数据或后处理。

对于室内场景,张等估计表面法线作为中间体表示并通过单独的优化解决深度估计问题,从而获得了优异的结果。表面法线是否是室外场景深度估计的合理表示以及如何利用表面法线,这个问题还没有被研究过。[3]提出了端到端的深度学习系统来从稀疏的LiDAR数据产生密集的深度。

相关工作[2]

以下将讨论关于深度完成任务的相关工作。将特别注意处理稀疏数据和LiDAR与其他模态的指导,特别是RGB图像。

2.1稀疏数据处理

在纠正输入的同时完成缺失信息具有广泛的应用。修复,去噪和超分辨都可以被视为深度补全任务的一部分,所以深度补全与上述特定的子任务有一定的相关性。较旧的方法使用手工方法,以便通过使用复杂的插值技术来执行稀疏输入的局部上采样。最近,J.Ku等人在不使用卷积神经网络(CNN)的情况下取得了令人瞩目的成果。它们通过形态学图像处理技术人为地使输入密集,并从该中间状态预测最终深度。然而,这些方法在LiDAR帧中容易出错。重要的是要知道3D LiDAR点被映射到2D平面,使得标准2D卷积成为可行的选择。尽管输入密度较大,但卷积运算并非设计用于对此数据进行操作。实际上,最近的工作表明卷积神经网络可以为这项任务取得令人兴奋的结果。Jaritz等人和F. Ma等人都使用深度神经网络,同时用零编码稀疏值。他们认为这个工作需要一个深层网络。我们认为,局部和全局网络的结合是一种更优雅和直观的解决方案,而且可以产生更好的结果。Uhrig等提出稀疏性不变卷积,以考虑稀疏输入。它们通过使用maxpooling在其网络的每一层传播有效性掩码来执行规范化卷积操作。现在,网络可以在稀疏程度上保持不变。Eldesokey等提出了一个类似的解决方案,以考虑稀疏性。这里,传播一个置信掩码,它需要为每一层进行第二次卷积,以便执行归一化并为下一层生成置信掩码。我们还尝试了不确定性,但在更高层次上,为了有效地组合全局和局部网络提取的特征图。HMS-Net通过采用多尺度网络提出用于连接,双线性上采样和添加稀疏输入映射的新操作,甚至更进一步。我们发现,如果稀疏性在每一帧中都是不变的,那么这些操作就不是必需的,因为我们注意到在包含这些修改操作时没有准确性增益。因此,我们坚持使用我们方法中的常规卷积,并表明我们的框架可以处理稀疏的LiDAR数据。此外,向稀疏输入添加有效性掩模对输出精度没有影响,这与Jaritz等人的发现一致。

2.2 引导深度补全

到目前为止,多种方法已经包含RGB数据,以便产生更好的结果。如何组合不同的传感器仍然是一个开放的研究问题。最近的工作包括融合技术,以便为深度完成任务生成更丰富的特征和更好的先验。RGB数据将用于指导我们的局部网络。我们现在讨论最近的引导和融合技术。

2.2.1 引导

在一项工作中,Schneider等人利用包括RGB信息,以便为深度预测生成锐利边缘。他们使用逐像素的语义注释来区分多个对象,并使用测地距离度量来强制执行清晰的边界边缘。F. Ma等人利用基于ResNet的深度神经网络,将RGB-D作为输入。此外,F. Ma等人也尝试采取自我监督的方法,这个方法需要时间数据。他们使用双流网络,以便将LiDAR数据和RGB图像组合在同一个特征空间中,从而获得更好的结果。也有方法通过利用RGB数据预测表面法线,从而为深度完成提供更好的先验。它们最终将这些预测与稀疏深度输入相结合,以生成完整的深度图。像我们一样,他们发现从独立的稀疏深度样本中完成稀疏数据是一项艰巨的任务,证明了RGB指导的重要性。

2.2.2融合

多模态传感器数据的融合并不简单。例如Li等人上采样由RGB图像引导的低分辨率深度图并采用后期融合方法。事实上,可以考虑不同的融合技术:早期融合,晚期融合或多层融合。Valada等采用后一种技术,通过从多个输入流中提取和组合编码器中不同阶段的特征图。一般来说,大多数方法表明后期融合可以获得更好的表现。我们提出早期和晚期融合的组合在KITTI基准上显示出良好的结果。在我们的工作中,早期融合采用从全局信息中提取的引导图去引导局部网络。在深度预测中采用不确定性来完成后期融合。此外,利用诸如添加,连接或乘以特征图的传统融合技术。

图1.框架由两部分组成:顶部的全局分支和下面的局部分支。全局路径输出三个信息图:引导图,全局深度图和置信图。局部图还通过考虑全局网络的引导图来预测置信图和局部图。该框架基于晚期融合方法中的信息映射融合了全局和局部信息。图2显示该结构可以纠正LiDAR输入中的错误。

方法[2]

我们的方法作用于3D点云投影到的2D平面。这里深度补全问题被认为是回归问题。我们的方法需要通过使用标注信息来训练我们的CNN并用零编码缺失的LiDAR输入值进行监督。通过使用半全局匹配(SGM)和时间信息来获得可靠的标注信息,但它们仍然是半稀疏的(大约只有30%被填充)。使用稀疏输入和半稀疏标注信息监督,卷积框架利用全局引导信息来校正伪像并正确地对输入进行上采样。在先前的工作中没有明确地解决这种伪像的校正。因此,我们的方法利用全局和局部信息来完成输入。由于LiDAR的信号的错误是由于移动物体和移动的激光雷达本身导致,所以这两个部分都是必要的,以便获得准确的预测。局部网络将解释局部信息,而全局网络基于LiDAR和RGB信息提取全局信息。两个网络之间的融合导致最终的深度图。我们稍后将证明深度补全不需要深层网络。首先,将更详细地解释框架的两个部分。

3.1 获取全局与局部信息

全局分支可以被认为是先验的,即可以修正由局部路径提取的特征。由于LiDAR输入帧中存在错误,因此全局信息有助于局部网络检测这些伪像并更准确地重建稀疏输入。首先,全局网络能够检测(移动)对象,并且能够检测帧中可能具有相同深度的结构。其次,我们期望计算更渐进的深度图以防止LiDAR输入的突然和错误变化。该信息可以通过RGB输入信息来确定,因为利用其颜色信息,可以更容易地提取对象的边界。因此,可以提取语义上有意义的信息。局部网络处理输入LiDAR帧并执行局部上采样。为了补救嘈杂的激光雷达数据,我们将LiDAR图与全局图融合在一起。一方面,这种引导技术背后的原因是局部网络可以进一步关注正确和有效的LiDAR点。另一方面,全局网络可以推断框架中的对象,边缘和更大的结构。最后,通过短连接方式来进行残差学习方法来不断改进预测。

3.2利用不确定性

我们利用全局和局部网络的不确定性。框架的两个部分都预测了一个置信图。通过这种方式,置信图就像一个权重图,用于两种输入类型之间的最终融合。置信图可以由网络以无监督的方式自主学习。使用这种技术,利用不同网络路径中的不确定性,根据学习的置信权重,更多地关注某种输入类型。网络学习在某些地区偏好全局信息而不是局部信息。事实上,在具有准确且足够的LiDAR点的位置,局部网络将产生具有高置信度的深度预测,而全局信息将用于LiDAR数据不正确或稀缺的地方,例如在物体的边界处。这种融合方法是组合多个传感器的有效方式,我们的结果在第4节中得到了支持。

3.3网络

全局网络是基于ERFNet的编码器 - 解码器网络,而局部网络是堆叠沙漏网络。后者由两个沙漏模块组成,以便学习原始深度预测的残差,受ResNet和身体姿势估计架构的启发,总共只有350k参数。每个由六层组成,具有小的感受野,并且通过使用跨步卷积仅下采样两次。在第一个卷积层和第一个沙漏模块的编码器中不存在批量归一化,因为零的数量会使层的参数偏斜,特别是当输入稀疏度不恒定时。沙漏模块的结构可以在表1中找到。基于ERFNet的全局网络被选择来使用,因为它在Cityscapes的基准上实现了高精度,同时仍然是实时的。全局引导图与稀疏的LiDAR帧融合,以便利用全局信息。这类似于早期融合作为局部网络的指导。一方面,全局网络提供三种输出图:具有全局信息的引导图,深度图和置信图。另一方面,局部网络提供深度图和信息图。通过将置信度图与其深度图相乘并添加来自两个网络的预测,可以生成最终预测。通过利用softmax函数计算置信图的概率值。此选择过程允许框架从全局深度图中选择像素,或从堆叠的沙漏模块中选择调整后的深度值。总体框架的可视化可以在图1中找到。

表1

方法[3]

[3]模型包括两个路径。两者都从RGB图像,稀疏深度和二进制掩模作为输入,表面法线路径(下半部分)产生场景的逐像素表面法线,其进一步组合稀疏输入深度和从颜色路径估计的置信掩模以产生密集深度。颜色路径产生也是一个密集的深度。

[3]模型是一个端到端的深度学习框架, 将从LiDAR重新投影的RGB图像和稀疏深度图像作为输入并产生密集的深度图像。整个网络主要由两条路径组成:颜色路径和表面法线路径。

4.1 DCU

深度补全单元的详细信息如下所示, RGB和稀疏深度的两种编码器由一系列ResNet块组成,最后将特征分辨率缩小到16分之一的输入。

深度补全单元采取后融合策略。单元仅在解码器阶段进行特征融合,不同于之前的工作,该单元在解码器的各个分辨率阶段均进行融合。

4.2基于注意力的信息整合

[3]利用注意力机制整合两路的预测结果。该注意力图利用最后输出前的特征图通过三个带有relu的卷积输出。两个注意力图紧接着送入到softmax层,被转换为一个融合权重。

4.3 置信图预测

(b)显示(a)中蓝色框标记的区域的放大视图。由于RGB相机和LiDAR之间的位移,对齐稀深度会导致前景/背景深度在封闭区域混合,如(c)中的树干。[3]网络学习成功降低混乱区域的置信度。

雷达信号和相机配准之前会存在问题。这个通常是由于遮挡造成的, 尤其是在近距离物体的边缘地点。理想来说,我们应当去发现这些遮挡区域,并且解决这种信号混叠,但是这样更加具有挑战性。相反,我们设计网络去学习一个置信图。

4.4 训练数据

由于缺乏真实的数据集,[3]使用开放式城市驾驶模拟器Carla生成合成数据集。[3]提供50K训练样本包括RGB图像,稀疏深度图,密集深度图和表面法线图像。对于真实数据,[3]使用KITTI深度完成基准数据集进行微调和评估。完整的kitti 表面法线是通过局部平面拟合从密集深度图计算出来的。

实验[2]

对于实验,我们使用了Tesla V100 GPU,代码在Pytorch中实现。我们通过计算地面实况的所有像素的损失来评估我们的框架,因为并非所有LiDAR的输入像素都是正确的。KITTI深度完成基准[21]是我们的主要关注点,因为它准确地类似于reallife情况。KITTI数据集[3]为训练提供了85898帧,为评估提供了1000帧,为测试提供了1000帧。首先展示消融研究,然后与现有技术进行比较。

表2

5.1消融研究和分析

在所有情况下,我们通过垂直翻转图像来进行数据增强。由于KITTI数据集的大小,在调整RGB输入大小时旋转和缩放LiDAR输入对最终结果没有影响。此外,由于LiDAR帧在顶部不提供任何信息,我们将输入裁剪为1216x256的宽高比。我们首先单独训练框架的两个部分,并在Cityscapes上使用预训练的ERFNet作为我们的全局网络。之后,添加了对局部网络的指导。因此,该框架是端到端训练的,并且将这两个网络的预测基于其确定性与这种后期融合方法相结合。我们采用Adam优化器,学习率为10-3。实现了多种损失函数。我们提出的焦点 - MSE损失,表现略好于普通 MSE损失(几毫米),也优于深度预测任务的流行BerHu损失。它显示在等式2中。增加了一个焦点项来使得在训练期间给出错误的预测点在损失表达中略高一些。这种回归损失值得在其他领域尝试。权重w1,w2都等于0.1,而w3等于1。

RMSE(均方根误差)和MAE(平均绝对误差)都用于评估KITTI基准,但我们主要关注RMSE,因为它是基准测试的领先指标。表2中的消融研究表明,全局和局部网络的结合可以产生令人印象深刻的结果。事实上,我们基于不确定性的后期融合方法有助于获得较大的准确度。通过利用引导图,我们最终胜过以前的方法。我们还坚持使用2个沙漏模块,这样推理时间不会不必要地增加。由于高度稀疏性,将批量归一化(BN)添加到局部网络中的所有卷积会略微增加MAE。我们得出结论,只有350k参数,仅局部网络已经可以取得良好的效果。但是,为了纠正错误,我们通过预测不确定性图和指导图来利用全局网络。表3报告了KITTI测试集的结果。我们的表现优于F. Ma等人。此外,当我们在框架中仅使用LiDAR信息(在表3中没有使用RGB图像)时,我们也在基准测试中排名第一。从这个测试集数据中我们得出结论,框架可以提取语义上有意义的信息以引导局部网络。

图2

结论[2]

我们提出了一个由RGB图像引导的框架,以完成和校正稀疏的LiDAR帧。该想法的核心是通过使用全局网络来利用全局信息。此外,我们利用置信图,以便根据后期融合方法中的不确定性将两种输入结合起来。我们使用我们的焦点损失成功地回归半稀疏的标注数据。该方法需要20毫秒的推理时间,因此它满足了大部分自动驾驶汽车的实时要求。最后,我们在KITTI数据集中评估了我们的方法 我们在深度完成基准测试中排名第一。致谢:这项工作得到丰田的支持,并在KU Leuven的TRACE实验室进行(丰田欧洲自动驾驶汽车研究 - 鲁汶)

缺点

1.[2]利用了语义分割的网络和信息,一是与其他方法对比不公平,而是场景泛化能力可能会极大下降,类似segstereo。

2.[2]论文中没有交代具体的网络结构设计。

3.[3] 使用了额外数据集与信息。

作者:https://github.com/meteorshowers

引用

[1]https://arxiv.org/pdf/1709.07492.pdf

[2]https://arxiv.org/abs/1902.05356v1

[3]https://arxiv.org/pdf/1812.00488v1.pdf

0 人点赞