从2D到3D的目标检测综述

文章：An Overview Of 3D Object Detection

作者：Yilin Wang Jiayi Ye

翻译：分享者

本文仅做学术分享，如有侵权，请联系删除。

论文阅读模块将分享点云处理，SLAM，三维视觉，高精地图相关的文章。公众号致力于理解三维视觉领域相关内容的干货分享，欢迎各位加入我，我们一起每天一篇文章阅读，开启分享之旅,有兴趣的可联系微信dianyunpcl@163.com。

●论文摘要

基于点云三维目标检测近年来逐渐成为三维计算机视觉领域的一个活跃的研究课题。然而，由于点云的复杂性，在激光雷达（LiDAR）中识别三维物体仍然是一个挑战。行人、骑车或交通要素等目标通常由非常稀疏的点云表示，这使得仅使用点云进行检测变得相当复杂。在本综述文章中，提出一个同时使用RGB和点云数据进行多类别物体识别的架构。利用现有的二维检测模型在RGB图像上定位感兴趣区域（ROI），然后在点云中采用像素映射策略，最后将初始的2D边界框映射到3D空间。我们使用最近发布的nuScenes数据集-一个包含许多数据格式的大型数据集来训练和评估我们提出的体系结构。

● 相关工作与介绍

目标检测的任务是找到图像中的所有感兴趣区域（ROI），并确定它们的位置和类别。由于各种物体的外观、形状和姿态的不同，以及成像过程中光照、遮挡等因素的干扰，目标检测一直是计算机视觉领域的一个具有挑战性的问题。在这篇文献综述中，主要总结了一些最新的目标检测相关工作。

● 内容精华

数据格式

A、数据集

在计算机图形学中，深度图是一种包含场景中对象到视点的距离的信息的图像。深度图类似于灰度图像，只是每个像素都是传感器和物体之间的距离信息。一般来说，RGB图像和深度图像像素之间存在一对一的对应关系，RGB-D格式的数据集包括Pascal VOC、COCO、ImageNet等。

雷达数据在目标检测问题中也很有用。雷达数据通过向目标表面发射无线电波来采集距离，然后利用反射信息计算目标的速度和与目标的距离。然而，雷达本身并不能提供足够的信息进行检测和分类，因此不同类型的数据融合非常重要。

点云数据是指三维坐标系中的一组向量。这些矢量通常用X、Y和Z三维坐标表示，通常用来表示物体的外表面形状。不仅如此，除了由（X，Y，Z）表示的几何位置信息外，每个点云还可能包括RGB颜色像素、灰度值、深度和法线。大多数点云数据是由三维扫描设备生成的，如激光雷达（2D/3D）、立体相机和飞行时间相机。这些设备自动测量物体表面上大量点的信息，然后通常以两种标准文件格式输出点云：LAS和.LAZ。这些点云数据由扫描设备采集。在用于训练的数据集中，除了点云数据外，还会有相应的RGB图像。此类数据集包括KITTI、nuScenes、Waymo Open等。

文献中使用nuScenes数据集来训练和评估模型。nuTonomy的nuScenes数据集是一个具有三维对象标注的大型自动驾驶数据集。与许多其他数据集相比，nuScenes数据集不仅具有更大的规模和更多的对象标记，而且提供了包括LIDAR、雷达、GPS和IMU在内的整个传感器套件。图1展示了nuScenes的激光雷达点云示例。

B、预处理

虽然数据集中的图像质量较高，但在实际应用中，天气等因素会影响图像质量，从而降低检测精度。最近提出的一些交通场景除雾算法可以解决这类问题。有论文提出了一种基于伽马校正和引导滤波的除雾方法。该方法在除雾前对图像进行gamma校正，然后对gamma校正后的图像进行三种不同尺度的引导滤波处理。利用Retinex模型对滤波后的图像进行修正，最后进行加权融合得到去雾效果。该方法得到的除雾图像具有较高的对比度和颜色一致性。除了提高图像质量外，相机校准通常用于确定图像在三维空间中的位置。虽然相机标定一直是一个被广泛研究的问题，但是大多数的标定方法都是固定摄像机的位置并使用一些已知的标定模式。Basu提出了一种利用场景中清晰的边缘和移动摄像机来自动标定摄像机的方法，而不需要预先定义模式。除上述问题外，有些数据集还存在严重的类不平衡问题。有论文提出了一种有效处理这一问题的方法，并在新的数据集中取得了良好的性能。首先采用数据扩充策略，然后对三维特征提取网络进行改进，最后对训练过程和损失评估进行全面改进。

二维目标检测

A、传统方法

传统的目标检测算法通常基于各种特征描述子。一个著名的描述符是定向梯度直方图（HOG）。它统计图像局部渐变方向的出现次数。Hog特征与SVM分类器相结合在目标检测中得到了广泛的应用，特别是在行人检测方面取得了很大的成功。特征检测在传统方法中占有重要地位。近年来，人们对特征提取进行了许多有趣的研究。Hough变换是图像几何形态识别的基本方法之一。例如，在人脸跟踪问题中利用基于梯度的Hough变换来定位眼睛的mask位置。然而，对于具有非单视点（SVP）准则的图像，这种变换不能直接用于特征识别。在地面空中交通场景中，[16]将Radon变换应用于视觉手势识别，获得了很好的识别率。在前人的研究中，提出了一种新的鼻形研究方法。该方法采用面积增长法确定机头所在区域，并通过预先定义的模板分别提取机头和机头翼的形状。最后，利用提取的特征来表示人脸跟踪的效果。一旦检测到感兴趣的特征，就可以使用Kanade–Lucas–Tomasi特征跟踪器（KLT）来跟踪下一帧中的特征。作者在2005年[18]提出了一种利用拉普拉斯高斯（LoG）和高斯加权函数来提高KLT跟踪性能的方法。将边缘特征耦合到加权函数中，得到了选择最优加权函数的确定性公式。这样，在提高跟踪性能的同时，增加了一点计算时间。有时除了特征提取外，还涉及图像分割。[19] 介绍了一种利用梯度矢量流（GVF）snakes在三维切片上提取相关轮廓的方法。对原有的GVF-snake方法进行了改进，利用气道CT切片的先验知识，增加了边缘检测和snake偏移技术，取得了较好的效果。这种技术也可能有用。另一个问题是摄像机运动引起的，随着采集数据的设备类型的增加，来自运动摄像机的数据越来越多。对于背景减法问题，虽然许多方法对从静止相机获得的数据都很有效，例如，在先验知识下，前景和背景在每一帧中有很大的区别，聚类可以在一次迭代中完成，只需要两个簇，[20] 能够实现高精度的背景减法。然而，处理移动摄像机更具挑战性。该方法首先利用鲁棒主成分分析（RPCA）提取背景运动，假设背景场景运动可以描述为一个低秩矩阵，然后将帧分割成子像素，以提高将光流转化为运动幅度和角度的精度，从而提高了结果。

B、深度学习方法

目标识别是指一组相关的任务，用于识别图像或视频中的对象。目标是找到图像中所有感兴趣的对象并确定它们的二维位置。感兴趣的区域通常由边界框定义。目前，目标检测领域的深度学习方法主要分为两类：一级目标检测算法和一级目标检测算法。前者是由算法生成的一系列候选框作为样本，然后用卷积神经网络对样本进行分类。后者可以直接将目标边界定位问题转化为回归问题，而无需生成候选框。由于两种方法的不同，两种方法的性能也不同。前者在检测精度和定位精度上优于后者，后者在算法速度上优于后者。此外，泛型框架主要有两种类型。第一个是两阶段框架。在这种框架中，区域建议被生成并随后被划分为不同的对象类别。因此也被称为基于区域的方法。这类模型主要包括R-CNN、Fast-RCNN、更快的R-CNN、基于区域的全卷积网络（R-FCN）等。在单阶段，模型将目标检测任务视为一个统一的、端到端的回归问题。在这种框架中，图像被缩放到相同的大小，并被均匀地分成网格。如果目标的中心落在网格单元中，则该网格单元负责预测目标。这样，模型只需对图像进行一次处理，就可以同时得到图像的位置和分类。一级框架主要包括MultiBox、YOLO、Single Shot MultiBox Detector（SSD）。与第一类框架相比，这种框架通常具有更简单的结构和更快的检测速度。

三维目标检测

在这一部分中，我们简要地讨论了一些现有的与三维物体检测相关的工作。我们根据不同的数据信息将这些作品分为三大类。

A、利用RGB图像进行目标检测RGB图像具有丰富的语义信息，在目标检测中具有重要的应用价值。2是使用2D图像的对象检测示例。3D-GCK[29]等方法只使用单眼RGB图像，可以实现实时车辆检测。它首先预测二维边界框，然后利用神经网络估计缺失的深度信息，将二维边界框提升到三维空间。

B、基于点云的目标检测

主要有两种类型的分类网络只使用点云数据。第一种方法直接使用三维点云数据。这种方法不会损失信息，但由于三维数据的复杂性，计算量往往很高。第二种方法通过将点云处理成二维数据来减少计算量，但不可避免地会丢失原始数据的某些特征。图3显示了三维激光雷达点云数据中的检测示例。

基于yolo实现的3D点云的目标检测

有很多方法可以将点云处理为二维数据。詹森的方法是通过使用几个二维透视图来表示三维点云。在数据预处理阶段，以图像中心为原点，以固定半径旋转，从64个不同角度截取点云图像。由于在分类过程中加入了额外的旋转和大量的实例，因此该方法在一定程度上减少了信息的丢失。尽可能多地把信息留给其他人。BirdNet 是BirdNet的一个改进，BirdNet是一个对象检测框架。BirdNet 为激光雷达数据上的3D目标检测提供了端到端解决方案。它采用由LiDAR点云变换而成的具有三个通道的二维结构的鸟瞰图表示，采用两级结构来获得面向三维的盒体。最近，论文提出了一种基于无监督深度学习的计算效率高的端到端鲁棒点云对齐和目标识别方法，即deep point cloud Mapping Network（DPC-MN）。该模型无需标注即可训练，有效地实现了从三维点云表示到二维视图的映射功能。

C、结合RGB图像和点云

Frustum PointNets目标检测同时使用RGB图像和激光雷达点云数据进行三维目标检测。该算法充分利用了成熟的二维目标检测器，减少了搜索空间。该算法通过从图像检测器中挤出二维边界盒，提取物体的三维包围体，然后在被三维视锥分割的三维空间中进行三维物体实例分割。

MV3D 实现的目标检测

MV3D还使用RGB图像和激光雷达点云数据作为输入。它将三维点云投影到鸟瞰视图和前视图。鸟瞰图由高度、强度和密度编码而成，而正视图是通过将点云投影到圆柱面上而生成的。利用鸟瞰图生成三维先验框，然后将三维先验框投影到正视图和图像上。所有三个输入都生成一个特征映射。采用ROI池技术将三个特征映射集成到同一个维度上。融合后的数据通过网络融合，输出分类结果和边界盒。

学习方法图像识别图像处理编程算法

0 人点赞