标题:3D Point Cloud Processing and Learning for Autonomous Driving
作者:Siheng Chen, Baoan Liu, Chen Feng, Carlos Vallespi-Gonzalez, Carl Wellington
编译:点云PCL
来源:arXiv 2020
本文仅做学术分享,如有侵权,请联系删除。欢迎各位加入免费知识星球,获取PDF论文,欢迎转发朋友圈。内容如有错误欢迎评论留言,未经允许请勿转载!
公众号致力于分享点云处理,SLAM,三维视觉,高精地图相关的文章与技术,欢迎各位加入我们,一起每交流一起进步,有兴趣的可联系微信920177957。
写在前面
这篇文章在可以说是很完整的介绍了点云在自动驾驶中各个模块的角色,从宏观的分模块的介绍了点云在自动驾驶中的作用与应用,看完整篇文章,将不仅对自动驾驶技术有了更为全面的理解,并理解点云在自动驾驶中的重要性,这里介绍的高精地图的创建以及定位感知等模块介绍是自动驾驶领域的核心技术,比如在介绍的定位模块的两种定位方式的时候就介绍了不同场景下的使用语义的几何信息以及点云强度信息进行定位的方法时,完全对得上apollo自动驾驶方案,让读者收获颇多。这里博主决定将其完整的翻译过来分享给更多感兴趣的朋友。
【系列文章】面向自动驾驶的三维点云处理与学习(1)
【系列文章】面向自动驾驶的三维点云处理与学习(2)
【系列文章】面向自动驾驶的三维点云处理与学习(3)
【系列文章】面向自动驾驶的三维点云处理与学习(4)
【系列文章】面向自动驾驶的三维点云处理与学习(5)
在翻译与理解的过程中可能存在笔误或者理解不到位,欢迎大家留言交流。由于文章篇幅较长,文章将被分成多篇文章更新发布。其完整英文版pdf可在免费知识星球中获取。
目录
1、介绍
1-A 自动驾驶的意义、历史与现状
1-B 一个完整的自动驾驶系统模块
1-C 三维点云处理与学习
1-D 大纲
2、三维点云处理与学习的关键要素
2-A 点云特性
2-B 矩阵表示法
2-C 代表性的工具
3、高精地图的创建以及三维点云的处理
3-A 高精地图创建模块概述
3-B 三维点云的拼接
3-C 点云语义特征的提取
3-D 地图创建面对的挑战
4、基于点云定位的处理
4-A 定位模块的概述
4-B 基于地图的定位
4-C 点云定位存在的挑战
5、点云感知
5-A 感知模块概述
5-B 3D点云物体的检测
5-C 点云感知存在的挑战
6、总结与扩展问题
6-A 学术界与工业领域的关系
6-B 定性结果
5,总结与扩展问题
自动驾驶领域正在快速发展。许多技术已经相对成熟;然而,自动驾驶的最终解决方案尚未确定。在现阶段,激光雷达是构建可靠的自主车辆必不可少的传感器,而先进的三维点云处理和学习技术是实现自主驾驶的关键组成部分。在这篇文章中,综述了三维点云处理和学习领域的最新发展,并介绍了它们在自动驾驶中的应用。描述了三维点云处理和学习如何在自动驾驶的三个重要模块中发挥作用:地图创建、定位和感知。
随着三维点云处理和学习技术的快速发展,自动驾驶系统中地图生成、定位和感知模块的整体性能得到了显著提高,但仍面临不少挑战。在这里,我们简要地提到几个重要的未决问题。
我们应该如何使点云处理和学习的算法具有稳定性和效率?现在我们仍处于开发阶段,自动驾驶汽车在有限的标准路线或小范围内进行测试。在不久的将来,自动驾驶汽车可能会在城市/全国范围内进行测试,这需要城市/国家的高精地图。这需要稳定的算法来创建和更新高精地图。现在,自动驾驶车辆通常配备有64线激光雷达,它仍能产生相对稀疏的点云。在不久的将来,激光雷达可能会有更多的线,产生更密集的点云。这就需要更高效的算法来实现LiDAR对地图的定位和三维目标的实时检测;
我们应该如何使点云处理和学习算法具有足够的鲁棒性来处理极端情况?我们可以采集大量的真实传感器数据,生成大量的模拟传感器数据,但需要刻意选取最具代表性的数据,以提高算法的通用性。同时,人们不得不面对这样一个事实:所有的学习算法都依赖于训练数据,而训练数据不可能涵盖所有的可能性。为了解决这个问题,一个关键的研究领域是改进算法的不确定性估计,因为这允许系统在学习到的对象不确定时保守地做出反应。这既需要对训练数据中已知的不确定性进行推理,也需要对训练数据未涵盖的情况中更具挑战性的不确定性进行推理;
我们应该如何以更快的迭代点云处理和学习算法?我们需要更多的数据和更复杂的算法来实现更好的自动驾驶性能;同时,我们需要高效实用的算法来加速产品开发,这也是至关重要的。工业实践者应该与学术界的研究人员密切合作,以提高研究转化率;
我们应该如何评估点云处理和学习算法?目前,大多数处理和学习算法都是基于特定的模型级度量来评估的,以满足相应任务的标准;然而,这些模型级度量通常与反映总体行为的系统级度量不完全相关。沿着这些相同的思路,研究界通常关注于提高平均性能,但需要更加关注于改善罕见的极端案例,这些案例对于现实系统来说非常关键。请注意,对抗性攻击是一个潜在的问题;然而,这并不是最关键的挑战之一,因为目前的技术远远没有达到对抗性攻击可能成为主要问题的性能水平。
6-A
学术界与工业领域的关系
在研究三维点云的处理和学习方面,我们从具体目标、数据集、方法论和评价指标四个方面对学术界和工业界进行了比较。
具体目标。学术界的研究人员通常将现实世界中的问题抽象为一个特定的、标准化的设置,通常使用固定的数据集和度量进行优化。他们将重点放在这个前提设置上,提出算法并进行比较,通过展示在这个前提下的改进来推动最新技术的发展。另一方面,业界的从业者通常关注系统级任务,以及使系统在现实环境中工作所需的内容。这通常包括复杂的系统依赖关系、需要满足的多个度量以及随时间增长的数据集。通过展示一个在实际应用中表现良好的系统,推动了最新技术的发展。例如,为了创建高精地图,研究人员抽象出一个高层次的研究问题:三维点云配准。为了实现这一点,他们提出了一种经典的配准算法,迭代最近点(ICP)[19]。基于该算法的延伸算法,研究了其理论性质,如收敛性;或将其扩展到各种高级版本,如点对面ICP[41]和全局ICP[42],以处理各种特定场景。为了解决同样的地图创建任务,从业者将基于ICP的配准过程与来自GPS和IMU的等附加传感器数据相结合,以开发一个更鲁棒的系统,该系统可以有效地处理现实世界的问题。
数据集。学术界的研究人员使用小规模、特定的数据集,而工业界的从业者则必须使用大规模、嘈杂、全面的数据集。例如,为了检测感知模块中的3D边界盒,研究人员使用KITTI数据集[40],但它只有几千个激光雷达扫描;为了识别3D点云,研究人员使用ModelNet 40数据集[44],它只有几千个模型。一个小规模的数据集简化了计算量,使算法的迭代速度更快。为了解决相同的检测任务,从业者将使用更大的数据集,使模型更鲁棒,并处理long-tail问题。另一方面,学术界的研究群体更大,数据集更小,问题更集中。因此,学术界的迭代速度通常比工业界快。但有时,学术界可能会由于对一个小数据集的过度拟合问题,或早期放弃需要更多数据来概括和收敛的更强大的方法而得出错误的结论。
方法论。学术界的研究人员强调技术上的新颖性,而工业界的实践者则考虑效率和内存之间的权衡,并将重点放在实际问题的解决方案上。例如,为了应对自动驾驶车辆的定位为题,研究人员可能会考虑基于SLAM的各种方法,这在技术上是有趣的;然而,从业者更喜欢使用离线高精地图,这需要昂贵的传感器和数据来构建地图,这是由于基于地图的定位可以比SLAM更加的高效和鲁棒;
评估指标。学术界的研究人员使用模型级的指标,而工业界的实践者通常使用大量的模型级和系统级的评价指标来保证所提出算法的健壮性。例如,为了在感知模块中检测3D边界盒,研究人员通常使用精度召回(PR)曲线和平均精度(AP)来判断检测算法,这很容易在研究论文中进行比较;然而,从业者会提出各种度量来获得对算法的更多解析。他们将检查不同范围类别的性能以及对后续模块的影响,而不是仅仅依赖于总体PR曲线和AP,以了解整体系统性能。
6-B
定性结果
为了说明高精地图和基于地图的实时定位的性能,我们在Precivision Technologies,Inc.的许可下展示了下图。图(a)显示了美国加利福尼亚州圣克拉拉市高精地图的一部分示例。在该图中,车道标记特征的3D轮廓(以橙色显示)覆盖在点云地图上,其中点云地图的底色表示激光雷达的反射率(白色表示高反射率,黑色表示低反射率);点云的蓝色到绿色表示点云的高度。注意,地面点云中的高激光反射率的点(即白色点)是车道标记上的点,其锐利的边界定性地证明了厘米级的局部精度。图(b)显示了实时激光雷达扫描和点云地图之间配准的鸟瞰图的可视化结果。在该图中,黄色点云表示激光雷达扫描点云,白色点云表示点云地图。注意,实时激光雷达扫描点云和点云地图之间的对齐通过三个缩放细节示例进行了演示,其中这些细节被选为距离激光雷达位置>50m的部分。定性证明了平移分量的厘米级精度和对齐旋转分量的微弧度级精度(即10厘米/50m=2 mrad)。
高精地图和实时定位说明。图(a)显示了高精地图的示例部分,其中包括点云地图和与交通规则相关的语义特征地图。图(b)显示实时激光雷达扫描(黄色点云)与点云地图(白色点云)匹配。
为了说明三维目标检测,我们给出了下图,这是在论文[39]中得到的。这个模型被称为LaserNet ,这是一种基于融合的最先进的3D物体检测器,由Uber开发。LaserNet 将激光雷达和相机数据作为输入,并在一个数据集上进行训练,该数据集包含5000个以10HZ采样的序列,总共120万张图像。如下图
LaserNet 与Uber 开发的最先进的基于激光雷达的3D物体检测器LaserNet进行了比较。中间一行显示LaserNet输出的可视化的鸟瞰视图,底部一行显示LaserNet 输出的可视化的鸟瞰视图。得出LaserNet 的性能优于LaserNet,特别是当物体远离自动驾驶车辆时。这表明融合多种模式信息的重要性。
参考文献
向上滑动阅览
[1] A. Taeihagh and H. Si Min Lim, “Governing autonomous vehicles: emerging responses for safety, liability, privacy, cybersecurity, and industry risks,” Transport Reviews, vol. 39, no. 1, pp. 103–128, Jan. 2019.
[2] National Research Council, “Technology development for army unmanned ground vehicles,” 2002.
[3] C. Badue, R. Guidolini, R. Vivacqua Carneiro, P. Azevedo, V. Brito Cardoso, A. Forechi, L. Ferreira Reis Jesus, R. Ferreira Berriel, T. Meireles Paixo, F. Mutz, T. Oliveira-Santos, and A. Ferreira De Souza, “Self-driving cars: A survey,” arXiv:1901.04407 [cs.RO], Jan. 2019. [4] M. Bansal, A. Krizhevsky, and A. S. Ogale, “ChauffeurNet: Learning to drive by imitating the best and synthesizing the worst,” CoRR, vol. abs/1812.03079, 2018.
[5] C. Urmson, J. Anhalt, D. Bagnell, C. R. Baker, R. Bittner, M. N. Clark, J. M. Dolan, D. Duggins, T. Galatali, C. Geyer, M. Gittleman, S. Harbaugh, M. Hebert, T. M. Howard, S. Kolski, A. Kelly, M. Likhachev, M. McNaughton, N. Miller, K. M. Peterson, B. Pilnick, R. Rajkumar, P. E. Rybski, B. Salesky, Y-W. Seo, S. Singh, J. M. Snider, A. Stentz, W. Whittaker, Z. Wolkowicki, J. Ziglar, H. Bae, T. Brown, D. Demitrish, B. Litkouhi, J. Nickolaou, V. Sadekar, W. Zhang, J. Struble, M. Taylor, M. Darms, and D. Ferguson, “Autonomous driving in urban environments: Boss and the urban challenge,” in The DARPA Urban Challenge: Autonomous Vehicles in City Traffic, George Air Force Base, Victorville, California, USA, 2009, pp. 1–59.
[6] G. P. Meyer, A. Laddha, E. Kee, C. Vallespi-Gonzalez, and C. K. Wellington, “Lasernet: An efficient probabilistic 3d object detector for autonomous driving,” in Proc. IEEE Int. Conf. Comput. Vis. Pattern Recogn., 2019.
[7] C. Ruizhongtai Qi, H. Su, K. Mo, and L. J. Guibas, “Pointnet: Deep learning on point sets for 3d classification and segmentation,” in Proc. IEEE Int. Conf. Comput. Vis. Pattern Recogn., 2017, pp. 77–85.
[8] X. Chen, H. Ma, J. Wan, B. Li, and T. Xia, “Multi-view 3d object detection network for autonomous driving,” in Proc. IEEE Int. Conf. Comput. Vis. Pattern Recogn., 2017, pp. 6526–6534.
[9] M. A. Fischler and R. C. Bolles, “Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography,” Communications of the ACM, vol. 24, no. 6, pp. 381–395, 1981.
[10] X-F. Hana, J. S. Jin, J. Xie, M-J. Wang, and W. Jiang, “A comprehensive review of 3d point cloud descriptors,” arXiv preprint arXiv:1802.02297, 2018.
[11] J. Peng and C.-C. Jay Kuo, “Geometry-guided progressive lossless 3D mesh coding with octree (OT) decomposition,” ACM Trans. Graph. Proceedings of ACM SIGGRAPH, vol. 24, no. 3, pp. 609–616, Jul. 2005.
[12] A. Ortega, P. Frossard, J. Kovacevic, J. M. F. Moura, and P. Vandergheynst, “Graph signal processing: Overview, challenges, and applications,” Proceedings of the IEEE, vol. 106, no. 5, pp. 808–828, 2018.
[13] S. Chen, D. Tian, C. Feng, A. Vetro, and J. Kovacevi ˇ c, “Fast resampling ´ of three-dimensional point clouds via graphs,” IEEE Trans. Signal Processing, vol. 66, no. 3, pp. 666–681, 2018.
[14] Y. Wang, Y. Sun, Z. Liu, S. E. Sarma, M. M. Bronstein, and J. M. Solomon, “Dynamic graph CNN for learning on point clouds,” ACM Transactions on Graphics (TOG), vol. 38, no. 5, November 2019.
[15] S. Chen, S. Niu, T. Lan, and B. Liu, “Large-scale 3d point cloud representations via graph inception networks with applications to autonomous driving,” in Proc. IEEE Int. Conf. Image Process., Taipei, Taiwan, Sept. 2019.
[16] G. Li, M. Muller, A. K. Thabet, and B. Ghanem, “DeepGCNs: Can ¨ GCNs go as deep as CNNs?,” in ICCV, Seoul, South Korea, Oct. 2019.
[17] G. Grisetti, R. Kummerle, C. Stachniss, and W. Burgard, “A tutorial ¨ on graph-based SLAM,” IEEE Intell. Transport. Syst. Mag., vol. 2, no. 4, pp. 31–43, 2010.
[18] D. Droeschel and S. Behnke, “Efficient continuous-time SLAM for 3d lidar-based online mapping,” in 2018 IEEE International Conference on Robotics and Automation, ICRA, 2018, Brisbane, Australia, May 21-25, 2018, 2018, pp. 1–9.
[19] P. J. Besl and N. D. McKay, “A method for registration of 3D shapes,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 14, no. 2, pp. 239–256, 1992.
[20] A. Y. Hata and D. F. Wolf, “Road marking detection using LIDAR reflective intensity data and its application to vehicle localization,” in 17th International IEEE Conference on Intelligent Transportation Systems, ITSC 2014, Qingdao, China, October 8-11, 2014, 2014, pp. 584–589.
[21] S. Shi, X. Wang, and H. Li, “PointRCNN: 3d object proposal generation and detection from point cloud,” in Proc. IEEE Int. Conf. Comput. Vis. Pattern Recogn., Long Beach, CA, June 2019.
[22] B. Li, “3d fully convolutional network for vehicle detection in point cloud,” in 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems, IROS 2017, Vancouver, BC, Canada, September 24-28, 2017, 2017, pp. 1513–1518.
[23] B. Yang, W. Luo, and R. Urtasun, “PIXOR: real-time 3d object detection from point clouds,” in Proc. IEEE Int. Conf. Comput. Vis. Pattern Recogn., 2018, pp. 7652–7660.
[24] J. Zhou, X. Lu, X. Tan, Z. Shao, S. Ding, and L. Ma, “Fvnet: 3d front-view proposal generation for real-time object detection from point clouds,” CoRR, vol. abs/1903.10750, 2019.
[25] B. Li, T. Zhang, and T. Xia, “Vehicle detection from 3d lidar using fully convolutional network,” in Robotics: Science and Systems XII, University of Michigan, Ann Arbor, Michigan, USA, June 18 - June 22, 2016, 2016.
[26] Y. Zhou and O. Tuzel, “Voxelnet: End-to-end learning for point cloud based 3d object detection,” in Proc. IEEE Int. Conf. Comput. Vis. Pattern Recogn., Salt Lake City, UT, USA, June 2018, pp. 4490–4499.
[27] S. Shi, Z. Wang, X. Wang, and H. Li, “Part-a2 net: 3d part-aware and aggregation neural network for object detection from point cloud,” CoRR, vol. abs/1907.03670, 2019.
[28] Y. Yan, Y. Mao, and B. Li, “Second: Sparsely embedded convolutional detection,” Sensors, vol. 18, no. 10, 2019.
[29] A. H. Lang, S. Vora, H. Caesar, L. Zhou, J. Yang, and O. Beijbom, “Pointpillars: Fast encoders for object detection from point clouds,” CoRR, vol. abs/1812.05784, 2018.
[30] T-Y. Lin, P. Dollar, R. B. Girshick, K. He, B. Hariharan, and S. J. ´ Belongie, “Feature pyramid networks for object detection,” in Proc. IEEE Int. Conf. Comput. Vis. Pattern Recogn., 2017, pp. 936–944.
[31] F. Yu, D. Wang, E. Shelhamer, and T. Darrell, “Deep layer aggregation,” in Proc. IEEE Int. Conf. Comput. Vis. Pattern Recogn., 2018, pp. 2403–2412.
[32] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. E. Reed, C-Y. Fu, and A. C. Berg, “SSD: single shot multibox detector,” in Computer Vision - ECCV 2016 - 14th European Conference, Amsterdam, The Netherlands, October 11-14, 2016, Proceedings, Part I, 2016, pp. 21–37.
[33] T-Y. Lin, P. Goyal, R. B. Girshick, K. He, and P. Dollar, “Focal ´ loss for dense object detection,” in IEEE International Conference on Computer Vision, ICCV 2017, Venice, Italy, October 22-29, 2017, 2017, pp. 2999–3007.
[34] J. Ku, M. Mozifian, J. Lee, A. Harakeh, and S. L. Waslander, “Joint 3d proposal generation and object detection from view aggregation,” in 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems, IROS 2018, Madrid, Spain, October 1-5, 2018, 2018, pp. 1–8.
[35] C. Ruizhongtai Qi, W. Liu, C. Wu, H. Su, and L. J. Guibas, “Frustum pointnets for 3d object detection from RGB-D data,” in Proc. IEEE Int. Conf. Comput. Vis. Pattern Recogn., 2018, pp. 918–927.
[36] D. Xu, D. Anguelov, and A. Jain, “PointFusion: Deep sensor fusion for 3d bounding box estimation,” in Proc. IEEE Int. Conf. Comput. Vis. Pattern Recogn. 2018, pp. 244–253, IEEE Computer Society.
[37] M. Liang, B. Yang, S. Wang, and R. Urtasun, “Deep continuous fusion for multi-sensor 3d object detection,” in Computer Vision - ECCV 2018 - 15th European Conference, Munich, Germany, September 8-14, 2018, Proceedings, Part XVI, 2018, pp. 663–678.
[38] M. Liang, B. Yang, Y. Chen, R. Hu, and R. Urtasun, “Multi-task multi-sensor fusion for 3d object detection,” in Proc. IEEE Int. Conf. Comput. Vis. Pattern Recogn., 2019, pp. 7345–7353.
[39] G. P. Meyer, J. Charland, D. Hegde, A. Laddha, and C. VallespiGonzalez, “Sensor fusion for joint 3d object detection and semantic segmentation,” CoRR, vol. abs/1904.11466, 2019.
[40] A. Geiger, P. Lenz, and R. Urtasun, “Are we ready for autonomous driving? the KITTI vision benchmark suite,” in Proc. IEEE Int. Conf. Comput. Vis. Pattern Recogn., Providence, RI, June 2012, pp. 3354– 3361.
[41] K-L. Low, “Linear least-squares optimization for point-toplane icp surface registration,” Tech. Rep., University of North Carolina at Chapel Hill, 2004.
[42] J. Yang, H. Li, D. Campbell, and Y. Jia, “Go-icp: A globally optimal solution to 3d ICP point-set registration,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 38, no. 11, pp. 2241–2254, 2016.
[43] A. Geiger, P. Lenz, C. Stiller, and R. Urtasun, “Vision meets robotics: The kitti dataset,” International Journal of Robotics Research (IJRR), 2013.
[44] Z. Wu, S. Song, A. Khosla, F. Yu, L. Zhang, X. Tang, and J. Xiao, “3d shapenets: A deep representation for volumetric shapes,” in Proc. IEEE Int. Conf. Comput. Vis. Pattern Recogn., 2015, pp. 1912–1920.
[45] F. Pomerleau, F. Colas, and R. Siegwart, “A review of point cloud registration algorithms for mobile robotics,” Foundations and Trends in Robotics, vol. 4, no. 1, pp. 1–104, 2015.
[46] H. Fathi, F. Dai, and M. I. A. Lourakis, “Automated as-built 3d reconstruction of civil infrastructure using computer vision: Achievements, opportunities, and challenges,” Advanced Engineering Informatics, vol. 29, no. 2, pp. 149–161, 2015.
[47] B. Reitinger, C. Zach, and D. Schmalstieg, “Augmented reality scouting for interactive 3d reconstruction,” in IEEE Virtual Reality Conference, VR 2007, 10-14 March 2007, Charlotte, NC, USA, Proceedings, 2007, pp. 219–222.
完结篇