CVPR2021|CenterPoint :基于点云数据的3D目标检测与跟踪

2021-03-17 15:37:26 浏览数 (1)

图1:网络流程图

代码、论文地址:在公众号「计算机视觉工坊」,后台回复「CenterPoint」,即可直接下载。

前言:

该文章是Center-based系列工作(CenterNet、CenterTrack、CenterPoint)的扩展,于2020年作者在arxiv公开了第一版CenterPoint,后续进一步将CenterPoint扩充成了一个两阶段的3D检测追踪模型,相比单阶段的CenterPoint,性能更佳,额外耗时很少。

本文的主要贡献是提出了一个两阶段Center-based的目标检测追踪模型,在第一阶段(如图1中的a,b,c),使用CenterPoint检测三维目标的检测框中心点,并回归其检测框大小,方向和速度。在第二阶段(如图1中的d)设计了一个refinement模块,对于第一阶段中的检测框,使用检测框中心的点特征回归检测框的score并进行refinement。

在nuScenes的3D检测和跟踪任务中,单阶段的CenterPoint效果很好,单个模型的NDS为65.5,AMOTA为63.8。模型性能很好,但是论文中说该模型的速度是在Waymo上11FPS,在nuScenes上为16FPS;同时模型的速度实验是在TiTan RTX上做的,也就是在所有边缘计算设备上均达不到实时计算。

主要的Contribution:

1. 使用点表示目标,简化三维目标检测任务:

与图像目标检测不同,在点云中的三维目标不遵循任何特定的方向,box-based的检测器很难枚举所有的方向或为旋转的对象拟合一个轴对齐的检测框。但Center-based的方法没有这个顾虑。点没有内转角。这极大地减少了搜索空间,同时保持目标的旋转不变性。(AblationStudy的结果可以看到Center-based方法对模型效果提升非常明显)

2. Center-based的方法可以简化追踪任务

作者表明由于该方法不需要额外的运动模型(如Kalman滤波),所以追踪计算时间可以忽略不计,在检测的基础上仅需要运行1毫秒。

3. 使用一个基于点特征的refinement模块作为网络的第二阶段。保障模型预测性能,同时也比现在大多数的refinement方法更快。我的理解是由于“检测--追踪”的多目标追踪流程对检测阶段的错误预测非常敏感,本文通过第二阶段预测bbox的score来降低CenterPoint第一阶段中产生的错误预测,提升目标检测的质量,同时进一步提升了追踪的结果。

下面具体来看一下实现细节。

实现细节

First Stage -- CenterPoint:

图二是CenterPoint的网络流程图,对应图一的a b c模块。

网络的输入为雷达点云数据。

网络的3D encoder部分使用了现有的网络模型,CenterPoint提供了两种主干网实现方式,分别为VoxelNet 和PointPillar。

图二:CenterPoint的网络流程图

网络的输出为基于类的Heatmap、目标的大小、转角和速度。其中Heatmap的生成方式与CenterNet类似。

首先,我们回顾一下CenterNet热力图的回归方式:对于任意尺寸为W*H*3的图像,我们会生成一个尺寸为W/R * H/R * K的热力图,其中K是检测的类别数。热力图的中元素的取值为0或1,其中若热力图该点为1,则图像中该点是一个检测框的中心,若为0,则该出在图像中为背景。

唯一的区别是:由于三维空间中目标分布离散且三维目标不会像图像中目标一样近大远小,如果按照CenterNet的方式生成Heatmap,那么Heatmap中将大部分都是背景,如图三所示。作者的解决方法是设置高斯半径公式为σ = max(f(wl); τ),其中τ = 2为最小高斯半径值,f为CenterNet的高斯半径求解方法。

图三:Heatmap的局限

Second Stage:

根据第一阶段的目标检测框和主干网featuremap,作者提取目标检测框每个面的中心点的在featuremap上的点特征值,将该特征值送入如图一d的全连接网络中,得到该目标检测框的检测置信度和精修结果。

具体地,由于目标检测框的顶面、地面的中心在birdview上为同一个点,故实际选择四个向外的面的中心在birdview上的点特征(具体的四个点的投影如图一c所示),作为全连接网络的输入值。同时,对于每个点特征,在实际提取时使用双线性插值从主干网的birdview的特征图中提取。

对于score的预测:

在训练时,Loss使用二进制交叉熵损失,如公式2所示,其中It为预测的置信度score,计算方式如公式1所示,表示预测结果与真值的3D IOU;

在推测时,直接使用第一阶段的CenterPoint的预测结果,最终预测结果的score(Qt)求法如图4所示。其中Yt的计算方式为第一阶段的目标检测框对应的热力图上值最大的一点。It为第二阶段计算的score。Qt时Yt与It的几何平均值。

图4:CenterPoint网络inference时score的计算方法

实验结果

检测结果

基于单阶段的CenterPoint而言。

如表一所示,在Waymo测试集上,CenterPoint在Level2上实现了车辆检测的71.8 mAPH和行人检测的66.4 mAPH,比之前的方法分别提高了7.1%和10.6%。

如表二所示,在nuScenes上,CenterPoint比去年的挑战冠军CBGS[67]高出5.2%的mAP和2.2%的NDS。

追踪结果:

表3显示了CenterPoint在Waymo测试集上的跟踪性能,其中AB3D是Waymo的追踪baseline。在nuScenes上(如表4),该框架比上一个挑战冠军Chiu等人的性能高出8.8 AMOTA。

Challenge:

论文中说该模型的速度是在Waymo上11FPS,在nuScenes上为16FPS;同时模型的速度实验是在TiTan RTX上做的,也就是在所有边缘计算设备上均达不到实时计算,这应该算是本网络的一个缺点了。

备注:作者也是我们「3D视觉从入门到精通」特邀嘉宾:一个超干货的3D视觉学习社区

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「计算机视觉工坊」公众号后台回复:深度学习,即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。

下载2

在「计算机视觉工坊」公众号后台回复:计算机视觉,即可下载计算机视觉相关17本pdf书籍,包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。

下载3

在「计算机视觉工坊」公众号后台回复:SLAM,即可下载独家SLAM相关视频课程,包含视觉SLAM、激光SLAM精品课程。

重磅!计算机视觉工坊-学习交流群已成立 扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。 同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向 学校/公司 昵称“,例如:”3D视觉 上海交大 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

0 人点赞