自动驾驶汽车的发展已经见证了硬件传感器记录感官数据的容量和准确度的发展。传感器的数量增加了,新一代传感器正在记录更高的分辨率和更准确的测量结果。在本文中,我们将探讨传感器融合如何在涉及环环相扣的数据标记过程中实现更高程度的自动化。
所有自动驾驶汽车(AV)都使用一组硬件传感器来识别周围的物理环境。硬件传感器包括摄像机或一组摄像机,这些摄像机战略性地放置在车辆车身周围,以捕获2D视觉数据,以及一些安装在车辆顶部的雷达,以捕获3D位置数据。有一些像特斯拉这样的供应商认为,视觉数据足以让汽车识别其环境。其他供应商使用激光雷达传感器捕捉车辆周围物体的3D位置数据。将二维视觉数据和三维位置数据融合,使AV系统能够精确地了解周围环境。
发展对周围环境的精确了解是AV系统的第一个组成部分。下图显示了AV系统的所有重要组成部分。
传感器融合
计算机视觉是计算机科学的一个分支,它使用照相机或照相机的组合来处理2D视觉数据。这使计算机可以识别汽车,卡车,骑自行车的人,行人,道路,车道标记,交通信号,建筑物,地平线。相机数据本质上是2D的,它不提供对象的距离。尽管可以使用摄像头传感器的焦距和光圈来近似物体的深度,但是由于在将摄像头传感器将3D场景捕获到2D平面上时会固有地丢失信息,因此无法精确定位。
雷达技术已在空中交通管理等地方用于定位飞行物体。雷达可用于估计物体的位置和速度。它不能用于将对象分类为汽车,人,交通信号灯或建筑物,因为它的精度较低。激光雷达是一种使用激光技术估算周围物体的位置和速度的硬件。激光雷达能够生成每秒高达200万个点的点云。由于精度更高,激光雷达可用于测量物体的形状和轮廓。
虽然来自相机的RGB数据缺少深度信息,但由激光雷达生成的点云数据缺少RGB数据中存在的纹理和颜色信息。例如,在点云数据中,相距20英尺的行人的轮廓可能是一团点,可以将其识别为多个不同的对象,如下面的点云的渲染所示。另一方面,阴影笼罩的低质量部分视觉信息会提示该对象是人,如下面摄像机的图像所示。
在点云中不容易识别卡车旁边的人
通过视觉信息可以轻松识别人
当执行视觉数据和点云数据的融合时,结果是周围环境的感知模型,该模型保留了视觉特征和精确的3D位置。除了准确性,它还有助于在传感器出现故障时提供冗余。
相机传感器数据和激光雷达点云数据的融合涉及2D到3D和3D到2D投影映射。
3D到2D投影
硬件
我们从Motional提供的最全面的开源数据集开始:nuScenes数据集。它包括六个摄像头,前面三个,后面三个。捕获频率为12 Hz。像素分辨率为1600x900。图像编码为每个像素一个字节,为jpeg。相机数据以每个相机镜头1.7MB / s的速度生成。一个激光雷达被放置在汽车顶部。激光雷达的捕获频率为20 Hz。它具有32个通道(光束)。它的垂直视场为-30度到 10度。它的范围是100米。其精度为2厘米。它每秒可以收集多达140万个点。输出格式为.pcd。激光雷达的输出数据速率为26.7MB / s(20byte * 1400000)。
数据集页面:https://www.nuscenes.org/overview
论文URL:https://arxiv.org/pdf/1903.11027.pdf
Devkit网址:https://github.com/nutonomy/nuscenes-devkit
参考系和坐标系
为了使传感器同步,必须定义一个世界(全局)坐标系。每个传感器仪器都有自己的参考系和坐标系。
激光雷达拥有自己的参考系和坐标系L1,
每个摄像机都有自己的参考系和坐标系C1,C2,C3,C4,C5,C6。IMU具有自己的参考系和坐标系I1。
为了此处的讨论目的,自主车辆参照系与激光雷达参照系相同。
定义世界参考系和坐标系
世界参考系(W1)是全局参考系。例如,可以选择激光雷达的第一帧作为世界坐标系的中心(0,0,0)。随后,激光雷达的每一帧图像将被转换回世界坐标系统。摄像机矩阵M1, M2, M3, M4, M5, M6将从每个摄像机坐标系统C1, C2, C3, C4, C5, C6转换回世界坐标系统W1。
将3D点云数据转换为世界坐标系
通过与自我框架平移和旋转矩阵相乘,激光雷达参考系(L1)中的每个框架都将转换回世界坐标系。
从世界坐标系转换为相机坐标系
下一步是通过与摄影机旋转和平移矩阵相乘,将数据从世界参照系转换为摄影机参照系。
从3D相机坐标系转换为2D相机框
一旦数据进入相机参考框架,就需要将其从3D相机参考框架投影到2D相机传感器平面。这是通过与相机固有矩阵相乘来实现的。
结果:准确的标注
激光雷达点云数据和相机数据的融合使注释者可以利用视觉信息和深度信息来创建更准确的标注
帧之间注释的插值使标注速度提高10倍
自动驾驶汽车系统开发中最具挑战性的任务之一是管理用于训练神经网络的庞大数据量。随着分类和检测准确性的提高,进一步提高性能所需的新训练数据量呈指数增长。为了提高速度并减少注释新训练数据的成本,注释工具可以提供自动化。自动化的一个示例是在LIDAR点云工具中的帧之间的注释插值。
所生成的传感器数据具有较高的准确性。激光雷达点云数据精确到正负2 cms。相机数据以1600 x 900像素分辨率记录。高精度级别允许注释工具提供半自动技术,以减少数据标记所需的手动工作。例如,考虑点云数据的10个连续帧的注释。每个激光雷达镜框都配有六个摄像头镜框。人工注释者使用注释工具将卡车安装在第1帧和第10帧中的长方体中。基于第1帧和第10帧中的长方体的位置,注释工具可以自动将第2帧中的长方体的位置插值到第2帧和第10帧中。框架9.这大大减少了贴标人员的工作量。这种半自动技术可以提高生产率,提高速度并降低构建AI的成本。
作者:Gaurav
原文地址:https://towardsdatascience.com/sensor-fusion-interpolation-for-lidar-3d-point-cloud-data-labeling-38ec670b481
deephub翻译组