摘要
本文的目标是在自动驾驶环境下生成高质量的3D目标建议。我们的方法利用立体图像将提案以3D包围框的形式放置。我们将此问题表述为最小化一个能量函数,该函数编码目标大小先验、地平面以及几个与自由空间、点云密度和到地面距离有关的深度信息特征。我们的实验表明,在具有挑战性的KITTI基准测试上,与现有的RGB和RGB- d目标建议方法相比,性能有显著提高。结合卷积神经网络(CNN)评分,我们的方法在所有三个KITTI目标类上都优于所有现有的结果。
1、简介
由于先进的预警系统的发展,在过去几年生产的几乎每一辆新车上都安装了摄像头。计算机视觉不仅为提高安全性提供了一个非常经济有效的解决方案,而且为人工智能的圣杯之一——全自动无人驾驶汽车提供了解决方案。本文主要研究自动驾驶的二维和三维目标检测。随着过去几年深度学习的巨大成功,目标检测社区从对穷穷滑动窗口进行简单的外观评分转向从更小的目标/区域建议集合提取更强大的、多层的视觉表示。这使得PASCAL VOC基准的绝对性能提高了20%以上。这些自下而上的分组方法背后的动机是提供数量适中的区域建议,其中至少有一些建议准确地涵盖了地面真实目标。这些方法通常将图像过度分割成超像素,并根据几个相似度度量将其分组。这就是选择性搜索背后的策略,目前最先进的探测器都使用这种策略。图像中的轮廓也被用来定位目标建议框。另一种成功的方法是将问题框定为能量最小化,其中参数化的能量族代表分组的各种偏差,从而产生多种不同的解决方案。有趣的是,目前最先进的R-CNN方法在自动驾驶基准KITTI上并不适用,远远落后于目前表现最好的方法。这是由于在这个基准上的底层box建议的可实现性较低。KITTI图像包含许多小物体,严重的遮挡,高饱和区域和阴影。此外,KITTI的评估要求汽车与地面真实值有更高的重叠,以使检测被认为是正确的。由于大多数现有的对象/区域建议方法依赖于基于强度和纹理的超级像素分组,它们在这些具有挑战性的条件下失败了。
在这篇论文中,我们提出了一种新的目标建议方法,利用立体信息以及特定于自动驾驶领域的上下文模型。我们的方法以3D方式推理,并以3D包围框的形式放置提案。我们利用对象大小先验,地平面,以及几个深度信息特征,如自由空间,盒子内的点密度,能见度和到地面的距离。我们的实验表明,在所有重叠阈值和目标遮挡级别上,可实现的召回率都显著提高,表明我们的方法产生了高度准确的对象建议。特别是,我们实现了25%以上的召回2K提案比最先进的RGB-D方法MCG-D。与CNN评分相结合,我们的方法在KITTI上对汽车、自行车和行人的目标检测方面优于所有发表的结果。
2、相关工作
随着深度网络[2,3]的广泛成功,它们通常在一个固定的空间范围内运行,对对象建议生成的兴趣也越来越大。现有的方法包括纯RGB, RGB- d,到视频。在RGB中,大多数方法都是基于颜色和纹理相似性将超像素合并成更大的区域。这些方法每幅图像产生约2000个建议,在PASCAL VOC基准上实现近乎完美的可实现的召回。通过定义像素之间的参数亲和性和使用参数最小割法求解能量来提出区域。然后使用简单的类格式特征对所提出的解决方案进行评分,通常只需150个排名最高的方案即可成功完成后续的识别任务。将学习引入到具有参数能量的提案生成中。使用几个“对象性”特性对穷举采样的边界框进行评分。BING建议还根据对象闭包度量对窗口进行评分,作为“目标化”的代理。基于每个窗口内部和边界的轮廓信息,Edgeboxes对数百万个窗口进行了评分。
利用RGB-D的方法较少。[17,18]用附加的亲和来扩展CPMC,以鼓励建议尊重闭塞边界。[14]通过一组额外的深度相关特性将MCG[5]扩展到3D。与过去的工作相比,他们的表现有了显著的改善。在[19]中,RGB-D视频被用来在非常精确的点云周围提出方框。与我们的工作相关的是滑动形状[25],它在RGB-D场景中详尽地评估3D长方体。然而,这种方法利用了在大量CAD模型渲染视图上训练的目标评分函数,并使用了复杂的基于类的势函数,这使得该方法在训练和推理中运行缓慢。我们的工作进展比以前的工作,利用典型的大小在三维物体,地面平面和非常有效的深度信息评分功能。
与我们的工作相关的还有自动驾驶的检测方法。在[26]中,通过类poselet方法预先检测对象,然后使用框内的图像信息拟合可变形的线框模型。Pepik等人的[27]将可变形的基于零件的模型[1]扩展到3D,方法是将不同视点的零件连接起来,并使用3D感知损失函数。在[28]中,使用了来自对象实例的可视和几何集群的模型集合。在[13]中,选择性搜索框使用自顶向下的对象级信息重新本地化。[29]提出了一种基于地图先验的DPM检测的整体模型。在KITTI中,目前表现最好的方法是最近提出的3DVP[12],它使用ACF检测器[30]和学习遮挡模式来提高被遮挡车辆的性能。
3、三维物体提案
我们的方法的目标是在自动驾驶的背景下输出一组不同的目标建议。由于三维推理在这一领域至关重要,我们把我们的建议放在三维,并表示为长方体。我们假设一个立体图像对作为输入和计算深度通过最先进的方法山口等人的[31]。我们使用深度来计算点云x,并在此领域进行所有的推理。接下来,我们将描述我们的符号并介绍我们的框架。
3.1、方案生成作为能量最小化
我们用一个三维边界框表示每个目标建议,用y表示,y由一个元组(x;y;z;θ;c;t), (x;y;z)表示中心的3 d盒和θ,代表其方位角。请注意,每个box y原则上都位于一个连续的空间中,但是,为了提高效率,我们认为应该位于一个离散空间中(详细信息见第3.2节)。其中,c表示box和t2f1的对象类;::;Tcg将代表每个c类目标的物理尺寸变化的一组3D方框“模板”作为索引,这些模板是从训练数据中获得的。
我们用马尔可夫随机场(MRF)中的推论来表示建议生成问题,它编码了提案y应该在点云中包含一个高密度区域的事实。此外,由于点云只表示三维空间中可见的部分,所以y不应该与点云中点与相机之间的射线中的自由空间重叠。如果是这样的话,盒子实际上会遮挡点云,这是不可能的。我们还编码了这样一个事实,即点云不应该垂直延伸到我们放置的3D盒子之外,并且点云在盒子附近的高度应该低于盒子。因此,我们的MRF能量采用以下形式:
注意,我们的能量通过类特定的权值wc>依赖于对象类,这些权值是使用结构化的SVM[32]进行训练的(详细信息见第3.4节)。我们现在更详细地解释每一种可能性。
点云密度:这个势编码盒内点云的密度
S (p)表明是否体素p是占领(包含点云点),和Ω(y)表示在盒子里面体素的集合定义为y。图1可视化的潜力。这种层级只是简单地计算盒内已占据的体素的比例。通过积分累加器,可以在常数时间内有效地计算出积分,这是将积分图像推广到三维的一种方法。
自由空间:这一潜在的编码约束点云和相机之间的自由空间不能被框占用。设F为一个自由空间网格,其中F(p) = 1表示从摄像机到体素p的射线不击中已占据的体素,即,体素p在自由空间中。我们对势的定义如下:
因此,这种潜力试图尽量减少盒内的自由空间,也可以有效地计算使用积分累加器。
高度先验:这个势编码了这样一个事实,即框内点云的高度应该接近目标类c的平均高度。这是按照以下方式编码的:
其中
其中,
指示道路平面的高度躺在体素p。在这里
初速平均高度和标准偏差的估计假设数据的高斯分布。积分累加器可以有效地计算这些特征。
高度对比:这个势编码包围边界框的点云的高度应该比框内点云的高度低。这个编码为:
其中y 表示每面向y方向延长0.6m得到的长方体。
3.2、离散和累积起
我们的点云是在一个左手坐标系下定义的,其中正的z轴沿着摄像机的观察方向,y轴沿着重力方向。我们对连续空间进行离散,使得每个体素的宽度在每个维度上为0:2m。我们计算了离散空间的占用率、自由空间和高度优先网格。根据积分图像的思想,我们在3D中计算累加器。
3.3、推断
我们的模型通过最小化Eq.(??)中定义的能量来进行推理:
由于使用积分累加器计算特征值的效率很高,因此计算每个配置的y花费的时间是常数。尽管如此,在整个网格中进行详尽的评估将是缓慢的。为了减少搜索空间,我们通过跳过不与点云重叠的配置来分割网格的某些区域。通过将所有边界框放置在道路平面
上,我们进一步减少了垂直维度上的搜索空间。我们通过将图像分割成超像素来估计道路,并使用具有多个2D和3D特征的神经网络来训练道路分类器。然后,我们使用RANSAC对预测的道路像素进行拟合以适应地面。使用地平面大大减少了沿垂直方向的搜索空间。然而,由于这些点在距离摄像机很远的地方是有噪声的,我们在距离摄像机20米以上的地方采样额外的提案箱。我们在
的高度采样这些盒子,其中
是通过假设物体与估计的地面平面之间的距离呈高斯分布的标准偏差的MLE估计。使用我们的抽样策略,对所有可能的配置进行评分只需几分之一秒。注意,通过最小化我们的能量,我们只能得到一个最佳的候选目标。为了生成N个不同的建议,我们对E(x;对于所有的y,执行贪婪推理:我们选择得分最高的提案,执行NMS,并进行迭代。对于N = 2000个建议,整个推理过程和特征计算平均为每张图像1.2s。
3.4、学习
我们使用结构化的支持向量机[32]来学习模型的权值
。给定N个地面真值输入输出对,
,通过求解如下优化问题来学习参数:
我们使用[33]的平行切割平面来解决这个最小化问题。我们使用GT box集合y(i)与候选y之间的相交-过并(IoU)作为任务损失∆(y(i);我们用两个三维盒子的交集的体积除以它们的并集的体积来计算三维的IoU。这是一个非常严格的措施,鼓励准确的3D放置的建议。
3.5、目标检测与定位估计网络
我们使用目标建议的方法来完成目标检测和方向估计的任务。我们使用CNN为边界框提案评分。我们的网络建立在Fast R-CNN上,它共享所有提案的卷积特性,并使用ROI池层来计算特定提案的特性。通过在最后一层卷积层后增加一个上下文分支和一个方向回归损失来共同学习对象的位置和方向,我们扩展了这个基本网络。来自原始分支和上下文分支的特性输出被连接起来并提供给预测层。通过将候选框扩大1.5倍得到上下文区域。我们使用平滑的L1损失进行方向回归。我们使用在ImageNet上训练的OxfordNet[3]初始化卷积层的权值和候选盒的分支。上下文分支的参数是通过从原始分支复制权重来初始化的。然后我们在基蒂训练场对它进行首尾衔接的微调。
4、实验评估
我们在具有挑战性的KITTI自动驾驶数据集上评估了我们的方法,该数据集包含三个目标类:汽车、行人和自行车。KITTI的目标检测基准有7481个训练和7518个测试图像。在三种情况下进行评估:容易的、中等的和困难的,包含不同的遮挡和截断水平的目标。温和制度是用来排名的竞争方法的基准。由于没有可用的test ground-truth标签,我们将KITTI训练集分为训练集和验证集(每个包含一半的图像)。我们确保我们的训练和验证集不会来自相同的视频序列,并评估我们的边界框建议在验证集上的性能。在[4,24]之后,我们使用oracle recall作为度量。对于每一个ground truth(GT)目标,我们发现在IoU中重叠最多的建议(即“最佳方案”)。我们说,如果IoU超过70%的汽车,50%的行人和骑自行车的人,GT实例已被召回。这是遵循标准的KITTI的设置。因此,Oracle recall计算被召回的GT目标的百分比,从而获得最佳可实现的召回。我们还展示了不同数量的生成建议如何影响收回。
和最先进方法的比较:我们将我们的方法与几个baseline进行比较:MCGD、MCG、选择性搜索(SS)、BING和Edge Box(EB)。图2显示了召回率作为候选数量的函数。我们可以看到,通过使用1000个建议,我们实现了90%的温和和艰难的制度下的汽车召回,而简单来说,我们只需要200个候选人得到相同的召回。请注意,其他方法会使候选目标达到90%的召回率,或者需要一个数量级的候选目标。对于行人和骑自行车的人,我们的结果也显示出了类似的改善。注意,虽然我们使用基于深度的特性,但MCG-D同时使用基于深度和外观的特性,而所有其他方法都只使用外观特性。这说明了3D信息在自主驾驶场景中的重要性。此外,其他方法使用不确定类的建议来生成候选目标,而我们根据目标类生成它们。这允许我们通过利用为每个类量身定制的大小先验来实现更高的回忆值。图3显示了500份提案的召回作为IoU重叠的函数。我们的方法明显优于基准,特别是对于骑自行车的人。
运行时间:表3显示了不同提案方法的运行时间。我们的方法是相当有效的,可以在一个核心上计算1.2秒内的所有特性和建议。
定性结果:图4和图5给出了汽车和行人的定性结果。我们展示了输入的RGB图像,前100个建议,3D的GT盒子,以及我们的方法与最佳3D IoU的提案(从2000个提案中选择)。我们的方法产生非常精确的建议,甚至更困难(遥远或闭塞)的对象。
目标检测:为了评估整个目标检测管道,我们报告了KITTI基准测试集的结果。结果见表1。我们的方法在所有领域都明显优于所有竞争对手。特别是,在适当的环境下,汽车、行人和骑自行车的人的平均AP分别提高了12.19%、6.32%和10.22%。
目标旋转估计:将平均方向相似度[11]作为目标检测和方向估计的评价指标。KITTI测试集的结果如表2所示。我们的方法再次大大优于所有方法。特别是,我们的方法在中等和硬数据方面比3DVP获得的分数高12%。行人和骑自行车的人的改善更显著,因为他们比第二好的方法高出20%以上。
5、结论
提出了一种自动驾驶环境下的目标建议生成新方法。与大多数现有的工作相比,我们利用立体图像和直接在3D推理。我们将此问题用马尔可夫随机场的推论来表示,该随机场编码目标大小先验、地平面和各种深度信息特征。我们的方法在具有挑战性的KITTI基准上显著优于现有的最先进的目标建议方法。特别地,对于2K建议,我们的方法达到了比最先进的RGB-D方法MCG-D高出25%的召回率。与CNN评分相结合,我们的方法在KITTI基准测试中显著优于所有之前发布的所有三个目标类的目标检测结果。