端到端基于图像的伪激光雷达3D目标检测

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

标题：End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection

作者: Rui Qian， Divyansh Garg，Yan Wang，Yurong You， Serge Belongie， Bharath Hariharan， Mark Campbell， Kilian Q. Weinberger， Wei-Lun Chao

来源：CVPR 2020

编译 : Cirstan

审核：wyc

摘要

大家好，今天为大家带来的文章是End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection

可靠、准确的三维物体检测是安全自主驾驶的必要条件。尽管激光雷达传感器可以提供精确的三维点云环境估计值，但在许多情况下，它们的成本也高得让人望而却步。最近，伪激光雷达（PL）的引入使得基于LiDAR传感器的方法与基于廉价立体相机的方法之间的精度差距大大缩小。PL通过将二维深度图输出转换为三维点云输入，将用于三维深度估计的最新深度神经网络与用于三维目标检测的深度神经网络相结合。然而，到目前为止，这两个网络必须分开训练。在本文中，我们介绍了一个新的框架，它基于可微的表示变化（CoR）模块，允许对整个PL管道进行端到端的训练。该框架与大多数最先进的网络兼容，适用于这两项任务，并与PointRCNN相结合，在所有基准测试中始终优于PL，在基于KITTI图像的3D目标检测排行榜上获得了最高的排名。

贡献

本文提出的框架可以适用于三维目标探测器，主要有以下贡献：

1. 它可以是直接点云输入，也可以是量化结构输入。由此产生的模型在基于图像的三维物体检测方面开创了新的技术水平，并进一步缩小了立体和基于激光雷达的传感器之间剩余的精度差距。 2.考虑到KITTI基准，立体图像的分辨率相对较低，只有少数图像包含（标记）远处的物体。这是相当合理的，更高分辨率的图像和更高比例的遥远的汽车将导致进一步的检测改进，特别是在硬（远和严重堵塞）类别

算法流程

1.问题

基于激光雷达的方法存在问题：

1）目标检测严重依赖与3D point的准确性，位置和检测需要近似object surfaces

2）不能够检测到远处的目标，由于车和人在图像中只占10%(kitti)，受激光范围限制，训练的时候会忽略远处的物体当前伪激光雷达存在的问题

3）没有实现端到端的深度预测和目标检测联合训练

图1 像素分布：90%的像素对应于背景。与汽车和人相关的10%像素（<1%的人）主要在20米的深度内。

2. 方法

本文提出的端到端框架解决不能够联合训练的缺点。其中，错误检测或错误定位对象的错误信号可以“softly attend ”影响预测最大的像素（可能是2D中对象上或周围的像素），引导深度估计器为后续检测器改进提供依据。为了使来自最终检测损失的误差信号反向传播，深度估计器和目标检测器之间的表示变化（CoR）必须相对于估计的深度是可微的。

图2 我们引入了一个表示层的变化来连接深度估计网络的输出作为三维目标检测网络的输入。其结果是一个端到端的框架，直接从立体图像生成对象边界框，并允许在所有层进行反向传播。黑色实心箭头表示向前通过；蓝色和红色虚线箭头分别表示目标检测损失和深度损失的反向过程。*表示我们的CoR层能够反推不同表示之间的梯度。

2.1 传统输出表示方法{0,1}占用

三维点的位置被离散成一个固定的网格，在得到的张量1中只记录占用（即{0，1}）或密度（即[0，1]）。这种方法的优点是可以直接应用二维和三维卷积从张量中提取特征。然而，这种离散化过程使得反向传播变得困难。

2.本文提出的表示方法能反向求导可微

本文引入了一个 radial basis function（RBF）在给定的面元m的中心ˆpm附近，而不是二进制占用，这样保持了一个“Softly”计数的点，由RBF加权。进一步地，允许任何给定的m受到close bins Nm的影响。然后我们相应地修改了T的定义。让Pm表示落入bin m的点集：

图3 ：我们使用软量化或硬量化对输入伪激光雷达（PL）点云进行体素化。绿色体素是那些受PL点影响的体素。具有检测损失Ldet正梯度的蓝色体素施加力将点从其中心推到其他体素，而具有负梯度的红色体素施加力将其他体素的点拉到其中心。只有当PL点影响这些体素时，红、蓝体轴上的这些力才能影响PL点。软量化增加PL点的影响区域，从而增加力，允许其他体素的点被推开或拉向。因此，更新后的PL点可以变得更接近地面真实激光雷达点云。

2.3 采样

首先，我们去除所有高于激光雷达信号可以覆盖的正常高度的3D点，例如天空的像素点。此外，我们还可以通过亚抽样来稀疏化剩余的点。第二步是可选的，但在[45]中建议使用，因为深度图生成的点数量比激光雷达大得多：伪激光雷达信号中平均有300000个点，而激光雷达信号中有18000个点（在汽车的正面视图中）。虽然密集的表示在精确度方面是有利的，但它们确实减慢了目标检测网络的速度。我们采用了一种基于角度的稀疏化方法。我们通过将球坐标（r，θ，φ）离散化来定义三维空间中的多个料仓。具体来说，我们离散θ（极角）和φ（方位角）来模拟激光雷达光束。然后我们保持一个单一的三维点（x，y，z）的球坐标落在同一个箱子里。因此，生成的点云模拟真实的激光雷达点。

主要结果

1.轨迹评估

图4 KITTI评估结果

图5 P-RCNN方法在框架学习

图 5 深度估计的定性结果。PL （仅限图像）的顶部有许多估计错误的像素。通过端到端的训练，提高了对车辆周围深度的估计，得到的伪激光雷达点云具有更好的质量。（请放大以获得更好的视野。）

图4 轨迹精度

Abstract

Reliable and accurate 3D object detection is a necessity for safe autonomous driving. Although LiDAR sensorscan provide accurate 3D point cloud estimates of the environment, they are also prohibitively expensive for manysettings. Recently, the introduction of pseudo-LiDAR (PL)has led to a drastic reduction in the accuracy gap betweenmethods based on LiDAR sensors and those based on cheapstereo cameras. PL combines state-of-the-art deep neural networks for 3D depth estimation with those for 3Dobject detection by converting 2D depth map outputs to3D point cloud inputs. However, so far these two networks have to be trained separately. In this paper, we introduce a new framework based on differentiable Changeof Representation (CoR) modules that allow the entire PLpipeline to be trained end-to-end. The resulting frameworkis compatible with most state-of-the-art networks for bothtasks and in combination with PointRCNN improves overPL consistently across all benchmarks — yielding the highest entry on the KITTI image-based 3D object detectionleaderboard at the time of submission.

点击阅读原文，即可获取本文下载链接。

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

图像处理图像识别 linux

0 人点赞