综述:用于自动驾驶的全景鱼眼相机的理论模型和感知介绍

2022-09-13 18:17:04 浏览数 (1)

文章:Surround-view Fisheye Camera Perception for Automated Driving: Overview, Survey & Challenges

作者:Varun Ravi Kumar, Ciaran Eising, Christian Witt, and Senthil Yogamani

编译:点云PCL

来源:arXiv 2022

欢迎各位加入免费知识星球,获取PDF论文,欢迎转发朋友圈。文章仅做学术分享,如有侵权联系删文。未经博主同意请勿擅自转载。

简介

环视鱼眼相机通常用于自动驾驶中的近距离感知,车辆四个侧面的鱼眼相机足以覆盖车辆周围360°的区域,捕捉整个近邻区域,其主要用途是自动泊车、交通堵塞辅助和城市驾驶。由于汽车感知的主要焦点是远场景感知,因此近场景感知任务的数据集有限,与远场相比,由于10cm的高精度目标检测要求和目标的部分可见性,环视感知带来了额外的挑战。由于鱼眼相机的具有较大的径向畸变,标准算法不能容易地扩展到环视鱼眼图上。因此,本文致力于为研究人员和实践者提供汽车鱼眼相机感知的一些总结,首先对常用的鱼眼相机模型进行了统一的分类处理,其次,我们讨论了各种感知任务和现有文献,最后,我们讨论了挑战和未来方向。

基本介绍

环视系统使用四个传感器形成具有重叠区域的网格,足以覆盖汽车周围的近场区域,图1显示了典型环视图系统的四个视图,以及典型泊车用例的表示。

图1:由四个鱼眼摄像机组成的典型汽车环视系统示意图,分别位于前、后和每个机翼后视镜(顶部)。下图显示了覆盖整个360°的车辆周围环境。通过融合四个摄像头为驾驶员提供的环视效果也在较小的方框中显示。

超过180度的广角视图通常用于这种近场景感知,任何感知算法都必须考虑这种摄像机系统固有的图像畸变。这是一个重大挑战,因为计算机视觉中的大多数工作都集中在具有轻微径向畸变的窄视场相机上。然而,随着此类摄像机系统的广泛部署,这方面的工作已经完成,本文的目的是向读者概述全景摄像机,调查现有技术现状,并深入了解该领域当前面临的挑战。

图2:鱼眼透视图,(上图)在超过60度时,以广角入射到针孔相机上的光线无法有效成像. 添加鱼眼透镜后,由于折射,视野大大增加到190◦ 。(底部)光线在水面上的折射会将地平线压缩到较小的视野中。

理论上,针孔相机的视场角可以达到180◦. 然而,事实上由于孔径和成像尺寸的限制要超过80◦都很难, 如图2(顶部)所示。然而鱼眼透镜通常可以有效地将视野增加到180度◦ 或更多。

鱼眼相机的应用

鱼眼相机提供比标准摄像机更宽的视野,通常具有180◦ 视野甚至更大,这可以提供几个优点,尤其是可以使用更少的摄像机来实现更大场景的覆盖,鱼眼相机的首次成功商业应用是在摄影领域,特别是在娱乐行业,鱼眼镜头效果成为一种风格元素。第二个成功的应用领域是视频监控,其中半球形透镜表面在现代监控系统中常见。最近,广角镜头通常用于虚拟现实耳机,它们也常用于水下机器人和空中机器人。

鱼眼相机使用的挑战

然而,鱼眼相机有几个挑战,最明显的是,具有较大的径向畸变,由于空间变化的畸变,实际对象的外观变化更大,特别是对于近距离对象,这增加了卷积神经网络(CNN)的学习复杂度,此外,如图3所示,使用边界框进行对象检测的常用应用变得更加复杂,因为边界框无法为鱼眼畸变对象提供最佳拟合。

图3:标准边界框不是鱼眼图像的良好对象表示,(a) 边界框内的红色像素显示不包含对象的大区域,定向框(b)和曲线边界框(c)是更好的表示

在一些论文中探索了更复杂的表示,不再使用简单的矩形框,而是利用已知鱼眼摄像机径向畸变的曲线边界框。鱼眼感知是一项具有挑战性的任务,尽管它很流行,但与针孔相机相比,它的探索相对较少,对于没有明显畸变的相机即针孔模型。可以首先考虑光线与距投影中心一定固定距离处的单个平面的交点。由于这种相机的透镜而产生的所有失真模型都被简单地设计成从平面上的投影中心径向移动交点位置,在某种程度上,鱼眼算法的开发由于缺乏统一的几何结构而变得复杂,许多模型使用不同的属性来描述鱼眼投影。

鱼眼相机模型

展示了图像点和单位球体之间的关系

针孔摄像机模型

当研究仅限于考虑标准视场相机时,针孔相机模型是计算机视觉和机器人学许多领域中使用的标准投影函数,针孔模型由下式给出:

或者,如果我们将其视为关于入射角的函数

其中θ是投影光线的入射角,注意,参数f被称为焦距,然而,它与物理透镜系统(通常可以由许多透镜元件组成)的光学焦距几乎没有关系。反投影函数为:

经典几何模型

本节讨论的模型称为经典模型,因为它们已经研究了至少60年。

图5 经典的相机模型

等距投影( Equidistant Projection):在等距鱼眼模型中,投影半径Qe(θ)通过等距参数f的简单缩放与场角θ相关(见图5a)。其投影公式:

其中得d和theta表示为

逆投影变换公式为

立体投影( Stereographic Projection):与等距模型一样,在立体投影中,X到投影球的投影中心为C(图5b),假设图像平面具有沿Z轴(光轴)的切点,在立体摄影中,存在到像平面的第二个中心投影,切点的反极点形成投影中心。这本质上是一个焦距为2F的针孔投影,因此,立体投影由以下公式描述:

其逆投影变换为

正交投影(Orthographic Projection):与之前的投影模型类似,正交投影从到球体的投影开始(图5c)。然后是到平面的正交投影,因此,正交投影的描述如下:

反投影变换表示为

扩展正交模型(Extended Orthographic Model):扩展正交模型,如图5d所示,通过使投影平面不与投影球相切,允许偏移λ,扩展了经典正交模型,在将图像从鱼眼图像转换为平面图像的情况下,该扩展用于控制畸变图像和去畸变图像之间的尺寸比,畸变投影与等式(10)保持相同。然而,畸变和未畸变径向距离及其逆之间的关系由下式给出:

扩展等距模型(Extended Equidistant Model):事实上,扩展正交模型只是从投影到图像映射的转换,许多模型可以以与扩展正交模型相同的方式转换为图像上的映射。根据公式(4),使θ=||k||/f,代入(2),并使(2)的焦距为f λ,得到等距模型的图像映射, 按照类似的步骤,也可以得到逆变换。

B、 代数模型

这里简要讨论了鱼眼相机的代数模型,特别是多项式模型和分割模型,我们提供的多项式模型讨论具有完整性,尽管我们在本文的其余部分集中于几何模型。

多项式模型:非鱼眼相机的经典Brown–Conrady畸变模型使用一个奇数多项式来描述图像上的径向畸变,尽管已经过时,Brown-Conrady模型仍然是非鱼眼相机软件实现中的标准畸变模型。例如,Kannala Brandt(以及在流行的OpenCV软件中实现的)提出了一个n=5或更高阶的多项式模型,仅具有奇数指数。

分割模型:径向畸变的分割模型获得了一定的普及,因为至少对于单参数变量,直线投影到图像中的圆,并且对于许多透镜,单参数变量表现非常好,模型及其逆解由下式给出

通过添加额外的缩放参数,这一点得到了扩展,从而改善了某些类型鱼眼透镜的建模性能,虽然分割模型最初被表示为图像上的映射,但它可以表示为投影函数

通过将针孔模型(2)代入(16),可以简单地获得径向投影函数,在这种情况下,一旦通过分割模型解决了畸变问题,可以将其视为针孔模型的参数。分割模型的逆投影为:

C、 球形模型( Spherical models)

基于点到单位球体的投影,至少是最近几十年的鱼眼模型。

视场模型( Field-of-View Model):视场模型及其逆定义如下

参数w近似相机视场,但不精确,这是一个像分割模型一样的图像模型,其中定义图像平面上的未畸变和扭曲半径。或者,它可以表示为投影函数。

其逆投影变换为

统一相机模型( Unified Camera Model):UCM最初用于模拟折反射相机,后来被证明在建模鱼眼相机时很有用。

图6:球形模型,UCM(a)首先包括到单位球体的投影,然后是透视投影,E-UCM将球体替换为具有系数β的椭球体,DS模型在UCM中添加了第二个单位球体投影,球体之间的距离为ξ。

已经证明,它在一系列透镜中表现良好,首先将点X投影到单位球体,然后投影到模型针孔摄像机(图6a)

UCM的逆投影变换

增强型统一相机模型(Enhanced Unified Camera Model):UCM由增强型UCM扩展(图6b),该模型将球面投影推广为椭球体(或实际上是一般的二次曲面),并能够证明一定的精度增益。E-UCM由下式给出:

双球体模型(Double-Sphere Model):双球体(DS)模型在UCM模型上扩展,该模型增加了第二个单位球体投影,以实现更复杂的建模(图6c)。

图8:各种鱼眼模型与一般透视投影之间的关系,双线表示两个模型等效,单线表示通用化/专业化

讨论

鱼眼相机有大量潜在的应用模型,在本文中,我们提到了20个模型,但可以肯定,这并不是详尽无遗的,然而已经表明,许多几何模型之间存在着强烈的关系,至少七个模型与一般透视投影相关或直接等效,此外,我们还表明,最近开发的一些鱼眼模型在数学上等同于经典的鱼眼投影函数,即几十年前提出的立体投影模型和等距模型。在图8中,我们提供了与一般透视投影相关的几何鱼眼模型图。

全景摄像系统

本章节将讨论环视图摄像机(SVC)的配置及其感知所需的基本术语,从SVC用于可视化的历史使用开始,它提供了对汽车配置的理解。然后,我们讨论了支持模块,如校准、校正和几何图元。

环视可视化:SVC历来用于显示在驾驶员仪表板上,用于停车可视化。第一个可视化应用程序显示了用于倒车辅助的后视鱼眼摄像头。

图9 环视可视化实例

初始系统基于2D俯视图,如图9(a)所示。这主要用于停车应用,但也可用于其他低速机动用例,如交通堵塞辅助。2D俯视图假设地面是平坦的,因此当地面具有非平坦轮廓时,它具有重影,其他附近物体,如车辆,在该视图中严重扭曲。通过3D环绕视图解决了这些问题,该视图使用了一个碗状表面,该表面附近是平坦的,并朝着外围具有向上的曲率,如图9(b)所示。此外,车辆周围的深度估计可用于调整碗状形状,以便在附近物体的重影较少的情况下进行最佳观察。例如,如果车辆在一侧附近,则该区域中的碗状表面将位于车辆前方,以避免重影。通常,应用程序提供用户界面以动态选择驾驶员所需的视点。环视图可视化应用程序通常使用GPU实现为OpenGL渲染应用程序。

环视图的配置:在SVC系统中使用鱼眼相机的主要目的是覆盖整个360◦ 车辆周围的近邻场景区域,这是通过四个鱼眼摄像机实现的,其大水平视场(hFOV)约为190◦ 垂直视场(vFOV)约为150◦。鱼眼相机具有非常大的角体积覆盖率,但其角分辨率相对较小,无法在长距离内感知较小的物体。因此,它主要用作近场传感器。作为比较典型的远场前置相机的hFOV为120◦ vFOV为60◦. 角体积明显较小,但具有高得多的角分辨率,使其能够感知远处的物体。鱼眼摄像机的大hFOV支持360◦ 只有四个鱼眼相机的覆盖范围。大的垂直视场使得能够捕获靠近车辆的区域,例如,当在路口停车时,检测到更高海拔的物体,如交通灯。

相机的放置方式使非常靠近车辆的区域可见,这对于停车场景至关重要,因此,摄像机的很大一部分包括自车车身,还可以注意到在相交区域中看到的视场的显著重叠,这可以用来解决运动问题中的结构比例问题。然而,该重叠位于具有最高失真的边缘,并且很难获得在该区域中精确工作的算法。图10说明了在巴黎繁忙的城市街道上测试的商业部署的近场感知系统上的目标检测和分割。

图10:商业部署系统的圆柱形校正环绕视图图像上的对象检测和分割示意图

鱼眼相机的标定:之前讨论了鱼眼相机的各种模型,每个模型都有一组参数(称为内参,必须通过标定程序进行估计)。此外还应估计摄像机的外参,即摄像机系统在车辆坐标系中的位置和方向。典型的校准过程是,首先检测图像特征(比如棋盘格),其次,算法将通过最小化点的重投影误差,尝试估计内参和外参,以使用校准设置的模型投影检测到的特征。重投影误差在此指示具有一组参数的模型能够多好地表示透镜的投影函数。其他摄影测量方法使用消失点提取并设置线来估计校准参数。OpenCV库中实现了一个广为人知的校准工具箱。OpenCV还提供了鱼眼相机型号的版本。基于棋盘特征和摄像机间对应关系的提取,提出了车辆上多个鱼眼摄像机的校准过程。这适用于环视摄像头系统,因为它提供了与车辆相关的精确外部校准,是提供融合环视图像的先决条件。当校准模式具有相对于车辆坐标系的已知位置时,可以在离线环境中如上所述估计摄像机的姿态。

几何投影:在针孔相机中,平面上的任何一组平行线都会聚在一个消失点,这些可用于估计内参和外参,对于针孔相机模型,几何问题通常可以用线性代数表示,在这种情况下,可以使用霍夫变换检测平行线,所有消失点的集合是该平面的水平线,在真实世界的摄像机系统中,针孔摄像机是摄像机的数学模型,其具有例如光学畸变形式的误差,这通常适用于畸变轻微的窄视场摄像机。对于宽视场摄像机,如果摄像机的视场大于180◦, 则原始图像中的点与校正图像平面之间不存在一一关系。对于鱼眼相机,更好的模型是球面投影面,在鱼眼图像中,Hughes等人描述了如何将这些平行线近似并拟合为圆或二次曲线,以便鱼眼摄像机确定消失点或水平线。这些平行线对应于球面的大圆。相应地,鱼眼相机成像的直线近似为圆锥,而鱼眼相机所成像的平行线在两个消失点处相交(如图11)。

图11:地平线、消失点和对极线的图示。鱼眼图像中的线可以近似为二次曲线,等效于透视图像中的平行线如何收敛于单个消失点,鱼眼图像中的并行直线在两个消失点处收敛,这两个消失点,当上升到单位球体时,是球体上的对极点,红色和绿色分别表示水平平行线(蓝色为相关地平线)和垂直平行线的透视图,红点和绿点表示消失点,其中一个消失点位于图像外部。

球面极线几何 :立体视觉的几何关系由极线几何描述,可用于深度估计和结构从运动方法结合特征提取器,在针孔相机模型中,穿过两个相机光学中心的线与图像平面的交点定义了称为对极点,这条线称为基线,穿过基线的每个平面在两个图像平面中定义匹配的极线,一个摄像机中的一个点位于另一个摄像机上的极线上,反之亦然。这将双视图摄像机设置中对应点(立体匹配)的搜索减少为1D问题,对于全向相机,如鱼眼相机,使用球面投影面代替平面投影面,更直观的是讨论对极平面而不是对极线,

图12:球形对极几何结构。对极平面是围绕对极e的平面束之一,由摄像机中心C和C0定义。理想观测u和u0将位于对极平面上,然而,在存在噪声的情况下,实际观测点u和u0与极平面的距离将为非零。

如图12所示,两台相机的单个3D点的理想观测将位于同一对极平面上,与针孔情况下它们位于对极线上的方式相同,然而,重要的是要注意,必须校准摄像机,以便将图像特征提升到投影球,相反,对于窄视场摄像机,通过基本矩阵为未校准相机定义了极线几何。

鱼眼相机校正 :可以消除鱼眼摄像机中的径向畸变,并重新使用标准感知算法,虽然这是一种快速启动鱼眼相机感知发展的方法,但仍存在与校正相关的几个问题。首先,理论上不可能将鱼眼图像校正为直线视角,因为水平视场大于180◦, 因此,有光线入射到相机后面的镜头上,这对于针孔设置不起作用,使用具有大视场的鱼眼透镜,然后由于矫正而失去一些,这是适得其反的,第二个重要问题是重采样失真,这在本质上更实际,这是插值重影的一种特殊表现形式,其中对于鱼眼图像,小补丁(特别是在失真高的外围)被扩展到校正图像中的非常大的区域,导致高噪声。此外,在推理时会消耗大量的计算能力和内存带宽,它创建具有无效像素的非矩形图像,这进一步降低了计算效率。

图13:不失真语言图像:(a)直线校正;(b) 分段线性校正;(c) 圆柱形校正。左:原始图像;右:原始图像。

鱼眼的常用校正方法如图13所示。图13(a)显示了标准直线校正,从缺失的水平白线可以观察到近处的显著损失,左边缘和右边缘的区域也有丢失,虽然存在显著的损失,但这允许使用标准摄像机算法。图13(b)显示了一个三次近似,其中鱼眼透镜表面由一个开放立方体近似,它可以解释为鱼眼投影表面的分段线性近似,每个平面是直线校正,因此可以在每个块内使用标准算法。然而,立方体的两个表面上的畸变具有较大的失真,并且很难检测在两个区域上分裂的对象,可以注意到由于边缘处的重新采样重影而导致的强烈透视畸变和模糊。实际上,常见的矫正过程是使用图13(c)所示的圆柱形表面,它可以被解释为准线性近似,因为它在垂直方向上是线性的,并且表面在水平方向上具有二次曲率,相对于直线视口,它覆盖的视野要大得多。主要优点是,垂直物体保持垂直,如建筑物上的垂直线所观察到的,因此,保留了扫描线,用于在两个连续鱼眼图像(运动立体)之间或鱼眼和窄视场相机(非对称立体)之间水平搜索立体算法,主要缺点是其固有的无法捕获靠近车辆的近场区域,这可以通过使用覆盖近场区域的附加平滑表面来固定,附近物体的畸变也会增加。

鱼眼相机的感知任务

由于数据集有限,关于鱼眼图像感知任务的文献相对较少。我们将感知任务分为语义、几何和时间任务。最后,我们讨论了联合多任务模型

A、 语义任务

语义分割:这是为图像中的每个像素(如行人、道路或路缘)分配类别标签的过程,如图14(第2列)所示。与针孔前摄像头上使用的基于语义分割的经典计算机视觉方法相比,基于CNN的方法最近非常成功,尽管在城市交通场景中,自动驾驶汽车需要更宽的视野来感知周围的事物,尤其是在十字路口。

图14:WoodScape数据集上OmniDet框架的原始鱼眼图像的定性结果[2]。第一列表示输入图像从前、左、右和后摄像机,第2列表示距离估计,第3列表示语义分割图,第4列表示广义对象检测表示和第5表示运动分割。以更高的分辨率获得更多定性结果

目标检测:目标检测在鱼眼图像中受径向畸变影响最大,由于鱼眼图像形成中的固有畸变,与光轴成不同角度的物体看起来非常不同,使得物体检测困难,矩形边界框往往不是对象大小的最佳表示,有时是标准BB框的一半,而框本身是感兴趣对象的两倍,实例分割提供了对象的精确轮廓,但它们的注释成本要高得多,还需要BB估计步骤。

脏污问题 :全景摄像头直接暴露在外部环境中,易受脏污影响,相比之下,前摄像头放在挡风玻璃后面,不太容易受到影响。有两种类型的污染区域:不透明(泥、灰尘、雪)和透明(水、油和油脂)(水),尤其是,由于背景能见度有限,可能难以识别透明污垢,脏污会导致感知精度的显著降低,因此使用喷水或更先进的基于超声波的清洁系统用于更高水平的自动驾驶。即使未清洁摄像机,也需要进行脏污检测,以增强退化区域视觉算法的不确定性。

B、 几何任务

深度估计:它涉及到在像素级估计到物体(或任何平面)的距离,计算相对于相机平面的距离仍然非常困难,目前,大多数工作都是在消除桶形失真的纠正kitti序列上进行的,在针孔相机的情况下,深度定义为与相机平面的垂直距离,即z。先前的运动结构(SfM)接近[106],[107],通过将网络的视差预测参数化为深度,以在视图合成步骤期间进行非投影操作,估计逆深度。这种参数化对于鱼眼相机不起作用,因为它们经历了大的畸变,这导致与针孔相机中的极线相比,在极线曲线上获得角度差异。为了应用与针孔相同的方法,我们需要校正鱼眼图像,这将导致第三节所述的视野损失。然而,适用于针孔投影模型摄像机的相同多视图几何[108]原理也适用于鱼眼图像。通过从不同的视点观察场景并建立它们之间的对应关系,可以估计潜在的几何结构。

视觉里程计:该技术同时进行摄像机运动估计和半密度重建,,方案中有两个线程:一个用于跟踪,一个用于建图。他们使用跟踪线程中的半密集直接图像对准来估计摄像机姿态。为了避免极线问题,使用平面扫描立体算法进行立体匹配并初始化深度。Cui等人展示了使用鱼眼摄像机的大规模实时密集几何建图技术,摄像机姿态是从GNSS/INS系统获得的,但他们也提出也可以从视觉惯性里程仪(VIO)框架中检索。深度图融合使用通过这些方法检索的摄像机姿态。Heng等人描述了鱼眼立体相机的半直接视觉里程计算法。在跟踪线程中,它们在估计摄像机姿态的同时跟踪鲁棒的特征点;在建图线程中,它们估计要跟踪的每个新特征点的坐标和曲面法线,曲面法线估计允许我们从不同的视点跟踪特征点,它们在检测特征对应性的技术中不使用描述符子强描述子匹配。相反,他们采用基于光一致性的方法来寻找斑块对应关系。

运动分割:它被定义为识别一对序列中的独立运动对象(像素),如车辆和人,并将其与静态背景分离,它被用作一种外观不可知的方法,使用不像稀有动物(如袋鼠或驼鹿)那样常见的运动线索来检测任意运动对象。MODNet首次探索了自动驾驶。最近,InstanceMotSeg定义并探讨了实例级运动分割。FisheeyeModnet将其扩展到鱼眼摄像机,而无需校正。没有明确的运动补偿,但提到了未来的工作。Mariotti等人使用基于车辆里程计的经典方法来完成这项任务。进行光流的球面坐标变换,并调整正高度、深度和极线约束以在该设置中工作。他们还提出了反平行约束,以消除汽车平行于自我车辆移动时通常出现的运动视差模糊。

C、 实时任务

虽然深度和运动等几何任务可以使用多帧进行训练和推理,但输出仅在一帧上定义,我们将时间任务定义为其输出在多个帧上定义的任务。它通常需要多帧顺序注释。

跟踪:对象跟踪是一项常见的时间任务,其中对象必须跨多个帧关联。文章[124]中探讨了环绕视图摄像机的运动对象检测和跟踪,使用经典的基于光流的方法进行跟踪。WEPDTOF是最近发布的一个数据集,用于在头顶监控设置中使用鱼眼摄像机进行行人检测和跟踪,虽然它不是一个汽车数据集,但它捕获了在鱼眼摄像机上开发跟踪系统所需的挑,轨迹预测与跟踪密切相关,其中必须为下一组帧预测感兴趣对象的位置。在自动驾驶的情况下,特别是在3D鸟瞰空间中进行。PLOP算法探索了在应用圆柱校正后,在鱼眼前摄像头上进行车辆轨迹预测。

重识别:重新识别(Re ID)是跨摄像机检测到的对象的关联,它还可以包括跨摄像机随时间的关联,Wu等人建议在全方位摄像机上执行车辆重新识别,并强调两个重大挑战:首先,由于鱼眼失真、遮挡、截断和其他因素,很难在单个摄像机视图中从以前的图像帧中检测到同一辆车,其次,在多摄像机视角下,同一辆车的外观会因使用的摄像机而发生显著变化。它们提供了一种新的质量评估机制,以抵消跟踪盒漂移和目标一致性的影响。他们采用基于注意力机制的Re ID网络,然后将其与空间约束方法配对,以提高不同摄像机的性能

SLAM:特征对应包括关键点检测、描述和匹配,是SLAM系统的首要步骤。FisheeySuperPoint为鱼眼图像引入了一种独特的训练和评估方法,该论文采用了SuperPoint,一种自监督关键点检测器和描述符,该检测器和描述符已生成最先进的单应性预测结果,提出了一个鱼眼自适应框架,用于对未失真鱼眼图像进行训练;鱼眼扭曲用于鱼眼图像的自监督训练,通过对单位球体的中间投影相位,鱼眼图像被转换为新的扭曲图像。摄像机的虚拟姿态可以在6-Dof中改变。Tripathi等人探索了使用ORB SLAM方案的环视图鱼眼相机的重新定位问题,目标是对私人区域进行地图绘制,并根据该地图重新定位,以帮助自动泊车。对原始鱼眼图像进行特征检测,并分析了原始鱼眼相机上不同特征对应算法的比较。

D、 多任务模型

自引入深度学习以来,许多密集预测任务(即生成像素级预测的任务)的性能显著提高,这些任务通常一次学习一个,每个任务都需要训练自己的神经网络,另一方面,最近的MTL方法[145]通过通过学习共享表示联合处理多个任务,在性能、计算复杂度和内存占用方面显示了良好的结果。对于鱼眼摄像机,Sistu等人提出了一种用于学习对象检测和语义分割的联合MTL模型,主要目标是在一个芯片上的低功耗嵌入式系统上实现实时性能,这两个任务使用相同的编码器。他们使用两个解码器共享的一个简单的类似ResNet10的编码器来构建一个高效的体系结构,对象检测采用YOLO v2解码器,而语义分割采用FCN8解码器。FisheyeMultiNet从基于摄像机的深度学习算法的角度讨论了自动停车系统的设计和实现,在低功耗嵌入式系统上,FisheyeMultiNet是一种实时多任务深度学习网络,可识别停车所需的所有对象,该设置是一个四摄像机系统,以15fps的速度运行,执行三项任务:物体检测、语义分割和污垢检测。最后,OmniDet中介绍了仅使用摄像机对环境进行近场感知的整体实时场景理解。他们构建了一个近场感知系统,该系统构成了图14所示的三级自主堆栈,在该框架的帮助下,可以从一个深度学习模型中共同理解和推理几何、语义、运动、定位和脏污,该模型包括嵌入式系统上以60fps的六个任务。Rashed等人[150]证明了深度和运动等几何任务有助于语义分割,因此实现了跨任务的协同交叉链接,摄像机校准被转换为逐像素张量,并被馈送到模型中,以适应各种摄像机内在特性。Sobh等人[151]研究了使用OmniDet的多任务设置中对抗性攻击的影响,这对于安全关键应用非常重要。

公开数据集和研究方向

A 数据集

构建汽车数据集既昂贵又耗时,目前是鱼眼感知研究进展的主要瓶颈,在表2中,总结了已发布的鱼眼摄像机数据集

B、 研究方向

畸变感知CNN:CNN自然地利用了图像网格中的平移不变性,并且在鱼眼图像中由于空间变化的畸变而被破坏,已经提出了球形CNN[89],可直接用于球形径向畸变模型,然而,汽车透镜更复杂,球形模型不适用。将球形CNN推广到更复杂的鱼眼流形表面将是一个有趣的方向,特别是, Kernel transformer networks[91]有效地将卷积算子从透视转换为全向图像的等矩形投影,更适合推广到鱼眼图像。

处理实时变化任务:如前所述,由于径向畸变导致外观变化较大,鱼眼相机的目标检测器样本复杂度增加,对于需要跨两个帧匹配特征的时间任务,这种情况会进一步恶化,这两个帧可能具有两种不同的畸变,例如,在鱼眼相机的情况下,目标跟踪和再识别要具有更大的挑战性,跟踪静态摄像机从左向右移动的行人需要处理较大的径向扭曲外观变化,同样,对于静态行人,相机的水平和垂直运动会导致较大的变化,这也是点特征对应问题的一个挑战,类似于跟踪。一种解决方案是在特征向量中显式嵌入径向畸变用于匹配。

鸟瞰图感知:在自动驾驶中,必须将图像上的检测提升到3D,通常通过反向透视映射(IPM)实现,假设地面平坦,它也可以通过使用深度估计或与3D传感器融合来增强,最近有一种趋势,即在网络中隐式使用IPM直接以3D点云输出,它通常通过使用可学习的校正层来转换抽象编码器特征,作为在输入级执行IPM的替代。由于CNN具有更多的上下文信息,并且可学习的转换可以更灵活,因此它比逐像素IPM工作得更好。在针孔相机的情况下,IPM是一种线性变换,并且相对容易设计编码器特征的空间变换器,然而,对于鱼眼相机,IPM是一个复杂的非线性算子,直接在鸟瞰空间中输出仍然是一个开放的问题。

多相机建模:目前在环视图摄像机中的大多数工作都独立处理四个摄像机中的每一个,并执行感知算法,联合建模所有四个环视图摄像机可能更为理想,首先,它将有助于通过两个或三个摄像头检测大型车辆(如运输卡车),其次,它消除了在多个摄像机中看到的物体的重新识别和单个检测的后处理,以形成统一的输出,如车道模型,多摄像机模型将更有效地聚集信息并产生更优化的输出。[160]开发了将多个相机视为单个摄像机的经典几何方法,然而,最近有一些工作利用多个摄像机作为单个感知模型的输入,他们使用针孔摄像机,重叠视场最小,对于环视图摄像机来说,对其进行建模更具挑战性。

远近场景相机的统一建模:下一代自动驾驶系统的典型配置包括使用四个环视摄像机和六个远距离摄像机对近距离进行360°全覆盖,执行所有摄像机的统一建模是挑战性的,扩展了上述多摄像机建模。图15显示了前部区域的近场和远场图像,它们形成了一个不对称的立体对,可以很容易地计算深度,而不是更具挑战性的单目深度,因为单目深度具有基本的模糊性,目前,还没有包含近场和远场摄像机的公共数据集来支持这项研究。

图15:形成不对称立体对的近场和远场前摄像机图像的图示

总结

鱼眼相机是自动驾驶系统中最常见的传感器之一,尽管它很流行,但汽车界对它的理解有限,因为它是一种专门的相机传感器,标准算法并不适用于它,这项工作详细介绍了如何开始开发环视图鱼眼相机,本文是详细描述鱼眼几何结构和模型的部分教程,以及讨论在鱼眼上开发的感知算法的部分综述。最后,文章提供了有待探索的未来方向。

0 人点赞