目录
摘要
1、简介
2、相关工作
2.1、图像处理
2.2、目标检测
3、提出的方法
3.1、深度估计和数据清洗
3.3.1、天窗区域识别和移除
3.1.2、基于暗通道先验模型的深度估计
3.1.3、对深度信息的数据清洁
3.2、域适配学习和模型融合
3.2.1、KDE模型
3.2.2、颜色深度的跨域适配
4、实验结果
4.1、评估标准
4.2、定性的评价
4.3、定量评估
5、结论
摘要
多雾天气给户外摄像监控系统带来了很多困难。在雾天,介质的光学衰减和散射效应会使场景辐射产生明显的畸变和退化,使其变得嘈杂和难以分辨。针对这一问题,本文提出了一种基于颜色和深度域的目标检测方法。为了防止错误传播问题,我们在训练过程之前清除深度信息,并从数据库中删除错误样本。采用区域自适应策略自适应地融合颜色域和深度域的决策。在实验中,我们评估了深度信息对雾天目标检测的贡献。通过与其他方法的比较,实验验证了多域自适应策略的优越性。
1、简介
室外摄像监控系统广泛应用于城市区域,在交通管理和安全维护中发挥着重要作用。这些系统在各种天气条件下运行是必要的。然而,雾天给基于视觉的系统带来了许多困难。衰减的场景外观和强噪声是影响退化目标检测结果的两个主要因素。在雾天获取清晰的图像/视频已经做了很多努力,并取得了很好的效果。然而,目前最先进的图像增强方法并不能显著提高目标检测性能。原因有两个。首先,目标检测需要从背景中分割感兴趣的目标。因此,雾天目标检测的关键问题是如何识别目标与背景的偏差。这对于这些增强的图像是困难的,其中包括许多纹理。其次,错误传播阻止使用任何图像预处理程序。图像预处理的初始误差会传播到后续的检测过程中,导致最终目标检测结果的误差。因此,基于预处理的目标检测策略在某些情况下是有问题的。尽管雾霾效应有其缺点,但它为目标检测提供了一种新的线索。根据光学成像模型,霾浓度随深度变化。因此,我们可以通过雾霾浓度的估计来表示未缩放的深度,根据雾霾浓度的点对点差异来表示物体与背景的深度对比。除了颜色域中的RGB信息外,该信息还提供了一种新的目标检测特性。对于雾天霾浓度的估计,最有效的方法是采用暗通道先验模型。暗原色先验模型的优点是可以利用单目图像来估计雾霾浓度。然而,其缺点是对图像噪声十分敏感,因此在霾浓度估计结果中,图像离群点会造成严重的误差。为了解决这一问题,本文采用了一种新的数据清洗方法来过滤深度数据。这可以保证背景模型的正确性,但是会导致深度和颜色域的数据量不相等。采用领域适应学习策略解决了这一问题。利用颜色和深度信息分别训练两个检测器,并结合这两个检测器进行最终的域适应检测。我们方法的新颖之处有三:
(一)雾天基于深度信息的目标检测。为了克服雾天带来的挑战,我们的方法利用深度信息进行目标检测。
(二)基于领域适应学习的雾天背景建模。我们的方法分别使用颜色和深度信息训练背景模型,并通过领域适应学习策略对其进行联合训练。
(三)探索雾天图像的深度和色彩特征。我们的方法探索了颜色和深度域的特征,并将它们融合在雾天的目标检测中。
论文结构如下。在第二部分中,我们介绍了图像处理和雾天目标检测的最新研究进展。第3节介绍了我们提出的方法。实验结果见第4节,我们的结论见第5节。
2、相关工作
在多雾天气中,大多数与目标检测相关的工作都涉及到图像去雾和目标检测方法的结合。前者通常用作增强对象外观的预处理程序,而对象-背景转换由目标检测后处理器标识。
2.1、图像处理
2.2、目标检测
由于雾天的外观退化和雾霾效应,使得目标与背景的偏差严重退化。为了解决这个问题,大多数现有的方法,包括上面提到的方法,都依赖于一个两阶段结构:一个图像预处理程序,然后是一个检测后处理器。该策略的优点和缺点在引言(第一节)中进行了讨论,此外,还有基于最优数学模型的方法。Oreifej提出了一种三项低秩矩阵分解方法,将图像数据分解为场景背景、介质湍流度和感兴趣对象三部分。然后,使用L1规范[25]分割移动目标。Gilles采用几何时空观点来解决大气湍流问题,并建立了一个模型来区分运动物体在湍流情况下的运动。
3、提出的方法
本文提出的新型目标检测方法基于一种域自适应策略。在我们的方法中探索了两个域的信息—颜色和深度。深度信息是使用暗通道先验模型估计的,在暗通道先验模型中,天窗被初始移除。此外,我们还提出了一种数据清理方法来消除错误的深度信息,保证训练数据的正确性。在数据清理过程之后,两个源之间会产生不平等的影响。该问题由领域自适应框架处理,利用颜色和深度信息分别得到的结果自适应地组合生成最终的目标检测结果。我们提出的方法的框架如图1所示。
3.1、深度估计和数据清洗
在现有的雾霾环境深度估计方法中,最有效的方法是暗通道先验模型。虽然该模型只允许非尺度测量,但估计结果可以反映出目标与背景的对比。针对天窗区域的去除,提出了一种光学特征相关方法来识别光分量。此外,为了消除训练数据中的错误,根据帧间通信对深度信息进行了清洗。
3.3.1、天窗区域识别和移除
3.1.2、基于暗通道先验模型的深度估计
3.1.3、对深度信息的数据清洁
虽然可以通过3.1.1节所示的方法去除天窗区域,但深度估计中的随机误差(可能由毛刺点引起)是无法避免的。为了解决这一问题,我们提出了一种深度图的数据清洗方法。在视频序列中,帧与帧之间在短时间间隔内的变化很小,变化只出现在有限的补丁中,而大多数像素保持不变,如图3的第一行所示。这说明在较短的时间间隔内,帧与帧之间的相关性很强,对应的深度图也应该如此,否则会出现随机误差,如图3第二行所示。
短时间间隔内帧与深度图之间的一对关联关系可以用数学方法计算如下:
3.2、域适配学习和模型融合
利用深度估计方法,对于雾天的任意场景,在颜色和深度域中分别获得两个目标检测源。数据清理之后,这两个域中的数据量是不相等的。该方法采用跨源域自适应的方法,在训练数据较少的背景模型(深度信息)的基础上,利用训练数据较多的背景模型(颜色信息)对背景模型进行改进。这是基于深度比例尺的变化与颜色信息的变化相对应的原理,因为深度偏差可能存在于颜色域中出现对比的边缘。我们使用核密度估计(KDE)来建立颜色和深度域的背景模型。
3.2.1、KDE模型
3.2.2、颜色深度的跨域适配
4、实验结果
为了对我们的方法进行实验评估,我们选择了来自YouTube的公共视频,其中包括雾天的各种场景[33-36]。在雾天获得的50个视频序列包括在这个评估中。对于每个序列,我们只采集了一个视频片段,保持了测试数据的多样性。因此,我们在实验中测试了50个不同的视频片段,共1257帧。对于一个视频切片,连续帧之间的变化非常小。因此,训练数据集的冗余度很高。如果使用所有帧对背景模型进行训练,那么训练过程的时间成本会非常高。为了消除训练样本之间的冗余,我们每隔五帧随机选取一帧。在每一个实验中,我们都将输入帧的分辨率保持为帧的原始分辨率。对于一个视频序列,我们选取了250帧作为训练样本对背景进行建模。首先,我们通过展示有深度信息和没有深度信息的目标检测结果来说明深度信息的贡献。然后,我们的方法与现有的背景建模方法,即spatiotemporal MoG (ST-MoG)、Vibe和DECOLOR进行了实验比较。此外,四元数傅里叶变换(PQFT)方法的相位谱也被选为一种典型的基于预处理/显著性的目标检测方法。对于这些比较的方法,我们使用颜色域提取的特征,而不包括深度特征。因此,域自适应策略的性能可以得到很好的证明。优秀的深度学习方法并没有被纳入我们的实验,因为它们需要大量的训练数据,超出了本研究所收集的数据。目前,没有一个数据库包含在雾天获得的足够的数据来训练深度网络。如果我们使用类似于KDE模型的数据库来实现深度学习方法,那么将很难获得预期的目标检测结果,从而对这些深度学习方法产生不公平的评价。因此,本研究选择的比较方法模型复杂度相对较低,在不同场景中被证明是有效的对象检测方法。参数T和l分别设置为T = 0.8和lambda=0.9 ,实验中暗原色先验的窗口大小为3×3。
4.1、评估标准
我们的实验评估的ground truth是由10个志愿者提供的标签的平均值得到的。因为我们的方法的目的是检测移动对象的区域,所以我们的ground truth中的移动对象是根据一个假设来识别的:如果移动对象的位移在5个连续的帧中大于10像素,那么我们就可以识别移动对象。这可以防止静态对象和动态噪声的影响。根据PASCAL准则[41],用C来评价检测结果与ground truth的重叠程度:
C=frac{Omega^{prime} cap Omega}{Omega^{prime} cup Omega}
其中W0为检测结果,W为ground truth。根据以下6项标准对我们的方法进行了评估:准确率(precision, Pr)、相似度(similarity, Sim)、真阳性率(true positive rate, TPR)、F-score,假阳性率(false positive rate, FPR)和误分类率(error classification, PWC)。
begin{array}{c} operatorname{Pr}=frac{t p}{t p f t}, mathrm{TPR}=frac{t p}{t p f n}, mathrm{Fs}=2 times frac{operatorname{Pr} times mathrm{TPR}}{operatorname{Pr} mathrm{TPR}} \ text { Sim }=frac{t p}{t p f p f n}, mathrm{FPR}=frac{f p}{f p t n}, mathrm{PWC}=100 times frac{f n f p}{t p t n f p f n} end{array}
这里,tp、tn、fp和fn分别表示真阳性、真阴性、假阳性和假阴性的数量。
4.2、定性的评价
本文从两个方面进行了论证。首先给出了基于深度信息的目标检测性能,定性地了解了颜色域和深度域结合信息的动机;其次,通过与其他方法的比较,定性地评价了性能。图4显示了雾天三个场景的深度、颜色信息和对应的目标检测结果的地图。我们观察到深度和颜色信息之间的互补关系。一般来说,深度信息对附近的物体更敏感,对背景噪声的去除能力也更好。然而,利用深度信息很难探测到远距离目标。与深度信息相比,颜色信息对远离摄像机的目标检测效果更好。利用颜色信息得到的结果存在点噪声。因此,我们观察到,当使用深度信息时,I和II场景中的一些遥远的物体被遗漏了。然而,深度信息在场景III中表现得更好,因为它识别了使用颜色信息得到的结果中遗漏的行人目标。
定性性能比较如图5所示。这些结果表明不同的方法具有不同的性质。ST-MoG模型具有良好的目标识别能力,但这种方法的缺点可以通过噪声点和结果中的空穴来体现。对于类块目标,Vibe和DECOLOR方法表现出更好的性能。但是,当结构物体靠近相机时,例如第七行和最后一行的样本,脱色的性能相对退化。基于pqft的方法只能提供粗略的结果,描绘的是物体的区域,而不是其精确的轮廓。一般来说,该方法能够正确地检测出目标,特别是邻近目标,从而获得最佳的检测结果。但是,我们的方法在某些情况下会遗漏远处的对象(例如,第三行和第四行的结果)。产生这种误差的原因是我们的方法使用的深度信息是由简单的基于暗渠先验模型的无标度测量给出的,这种方法效率高但分辨率低。因此,那些远离相机的物体很可能被误认为是背景,因为未缩放的深度信息不够敏感,无法区分发生在远离相机的运动。形态学方案,如侵蚀和扩张算子[43]可以进一步介绍,以消除毛刺和噪声的结果。但是,这些方法不能自动运行,我们应该根据具体情况仔细配置控制参数,比如内核的带宽。这可能会导致性能比较的偏差,因为我们很难确定这些参数对于任何特殊结果是否是全局最优的。这就是在ex中维护原始目标检测结果的原因。
4.3、定量评估
利用上述标准,我们提供了一个定量评价的比较方法和我们的方法。由表1可以看出,我们的方法在四个准则中表现最好,在两个准则中表现次之。最具可比性的表现是通过Vibe方法获得的,因为它在两个标准中是最好的,在三个标准中是次好结果。从表1的得分可以看出,虽然我们的方法在天气好的情况下无法达到我们的性能,但是我们的方法在大多数情况下是可以使用的,因为帕PASCAL准则C > 0.5的平均得分表明检测和跟踪是成功的。
5、结论
为了解决雾天目标检测的问题,本研究对图像数据中的颜色和深度信息进行了探索和融合。为了防止训练数据集中的错误,提出了一系列技巧,如天窗移除和数据清理。我们分别使用颜色和深度域的特征来训练和建立背景模型。这两个背景模型在一个统一的域适应框架下组合,将源域(颜色)模型引入目标域(深度)。在雾天利用公共数据进行的实验中,取得了理想的目标检测结果。实验结果表明,该方法的一个潜在的缺点是难以检测出远距离目标。这个问题可以通过更新深度估计方法来解决。我们的方法是第一个研究基于深度特征的雾天目标检测的方法。该方法可以推广到其他具有深度信息的目标检测任务,如基于RGB-D数据的目标检测。此外,我们在未来的工作中还包括一个雾探测模型,它是在现实条件下的全天候系统的基础。