Improved Traffic Surveillance via Detail Preserving

2022-09-02 11:45:59 浏览数 (1)

1、摘要

近年来,在深度卷积神经网络(CNNs)的帮助下,图像和视频监控在智能交通系统(ITS)中取得了长足的进展。 作为一种先进的感知方法,智能交通系统对视频监控中每一帧感兴趣的目标进行检测是其广泛的研究方向。 目前,在照明条件良好的白天场景等标准场景中,目标检测显示出了显著的效率和可靠性。 然而,在夜间等不利条件下,目标检测的准确性明显下降。 造成这一问题的主要原因之一是缺乏足够的夜间场景标注检测数据集。 本文提出了一种基于图像平移的目标检测框架,以解决在不利条件下目标检测精度下降的问题。 我们提出利用基于风格翻译的StyleMix方法获取白天图像和夜间图像对,作为夜间图像到日间图像转换的训练数据。 为了减少生成对抗网络(GANs)带来的细节破坏,我们提出了基于核预测网络(KPN)的方法来细化夜间到白天的图像翻译。 KPN网络与目标检测任务一起训练,使训练好的白天模型直接适应夜间车辆检测。 车辆检测实验验证了该方法的准确性和有效性。

2、简介

随着计算机视觉和深度卷积神经网络(CNNs)的快速发展,图像和视频中的视觉数据理解已经引起了人们的广泛关注。 例如,在智能交通系统(ITS)中,检测交通监控视频中的每一帧车辆对提取实时交通流参数[8]进行有效的交通控制、获取车辆轨迹[9]进行标定的交通模型仿真等具有重要意义。 现有的研究大多集中在监督学习的日间感知任务上,但对夜间情境[10]等不利条件下的感知任务归纳较差。 夜间场景的逆境对夜间感知任务的成功提出了两个挑战:1)与大规模日间数据相比,具有大量标注的夜间数据往往稀缺,难以获得准确的夜间图像标注。 2)夜间图像的视觉危害,如曝光不足、噪声等,导致提取的特征被破坏。

解决这个问题的一个传统方法是在有限的夜间数据上对已经训练好的日间感知模型进行微调,希望它能在夜间场景中表现良好,但它需要额外的时间和额外标记的夜间数据来进行模型微调。 另一种传统的方式[10]可能使用生成对抗网络(GANs),以非成对的方式将基于图像的图像转换方法,如CycleGAN[11]和UNIT[12],将白天的图像转换为伪造的夜间图像。 由于交通和环境的动态变化,在实际应用中很难获得成对的日间和夜间图像。 这种图像转换将此问题视为对合成夜间图像进行模型微调的域自适应问题,而无需对夜间数据进行标记。 然而,这些方法还需要额外的时间来进行模型微调。 此外,基于GAN的图像转换存在模型崩溃的问题,不能很好地保存内容细节[13],[12],[11],[14],[15]。 一般深度生成器中的瓶颈层由于下采样和上采样操作,损害了卷积核的学习能力,导致可能丢失一些结构细节。 此外,不同域的训练数据不配对,由于缺乏像素级对应,限制了生成器的细节保持能力。 在本文中,我们希望在夜间场景中重用日间感知模型。 我们的基本想法是最大限度地使用预先训练好的日间感知模型,类似于作品[16],[17],可以很容易地扩展到夜间任务。 与传统方法相反,我们通过保留细节将夜间图像转换回白天样式,以重用训练好的白天感知模型,如图1所示。 这种反向方法的优点是显而易见的和有前途的:1)对已经训练过的日间感知模型不需要额外的训练,也不需要手动标记夜间数据; 2)图像传输可以减小日间数据与夜间数据之间的域分布差异; 3)与基于GAN的图像传输相比,保留细节的图像传输能更好地保持结构细节。

具体地,我们提出了一种保留细节的未配对域转移方法,该方法主要包括两个部分:1)基于风格转移的StyleMix; 2)基于核预测网络(KPN)的夜间到日间图像转移。 在没有成对的白天和夜间图像对的情况下,我们建议利用基于样式翻译的StyleMix方法,受AugMix[18]的启发,获取白天和夜间图像对,作为后续夜间到日间图像传输的训练数据。 我们可以有效地缓解GAN引起的细节破坏:1)合成的夜间图像和相应的日间图像翻译可以为夜间翻译提供像素级对应。 2)基于核预测网络的方法可以细化夜间到白天的图像平移,因为逐像素核融合可以有效地利用每个像素的相邻区域,可以学习更多的空间上下文表示结构信息。 该方法可以通过一个日间模型进行日间和夜间车辆检测,在实际应用中更加方便。

本文在交通监控视频中选择车辆检测问题,作为提出方法的案例研究。KPN网络通过对象检测任务进行训练,将训练的日间模型适应直接适合夜间域。在白天和夜间的车辆视频数据集中的实验结果验证了该方法的准确性和有效性。本文的贡献如下:

  • 我们提出了一种防止夜间车辆检测的非配对域转移方法,以直接适应夜间车辆检测的训练日间模型。
  • 为了解决缺少成对的日间图像对的问题,我们建议利用风格翻译的StyleMix方法获得日间图像和夜间图像作为训练数据。这些训练数据被KPN网络用于夜间对日间图像传输的执行。
  • 在白天和夜间的视频监控场景中,车辆检测数据集的综合实验结果表明,该方法在夜间场景中实现了更好的车辆检测性能。在本文的下面,第二部分回顾了相关的工作。第三节解释了所提出的方法。实验设置和结果在第四节中进行了描述,并在第五节中得出结论。

2、相关工作

Object detection at nighttime:

近年来,物体检测的最先进性能正在迅速提高。1阶段(SSD[19],YOLO[20],RetinaNet[21]和2阶段(Faster R-CNN[22],Mask R-CNN[23])检测框架在现实世界应用中取得了良好的性能。他们通常需要大量的手工标记数据来监督学习。尽管如此,大多数人在白天运行良好,在良好的照明条件下,在具有挑战性的照明条件下,在夜间的场景中严重地破坏。此外,对夜间图像的手工注释是很困难和耗时的,因为即使是人类也不能清楚地识别夜间不良场景中的物体。夜间检测任务最近引起了广泛关注。域特定的工作[24],[25],[26]通过考虑摄像头的类型来探索夜间人类的检测。其他工作[27],[28]在驾驶场景中被车辆检测。domain不变表示[29],[30]或fusion works[31]被设计为健壮的照明变化。图像翻译工作[32]旨在在夜间提高检索定位。在这项工作中,我们专注于夜间在交通监控场景中的车辆检测。我们的目标是将白天检测模型适应夜间检测,以重新使用日间领域知识。从其他感知任务中探索白天模型的鲁棒性也很有趣,例如[34]。,[35],[36],[37],[38],在未来的夜间场景中

Learning from synthetic data:

一般来说,训练集和测试集之间的域转换会影响神经网络的泛化能力。数据增强技术,如随机裁剪和仿射变换,是提高网络在陌生领域的稳定性的一种方法。有效使用合成数据[15]、[39]、[40]是实现相同目标的另一种选择。该算法已经应用于许多计算机视觉任务,如人群计数[15]、语义分割[39]、人物再识别[40]等。减少数据集分布偏差的一种常见方法是使合成数据更加逼真,同时最小化域偏移。采用域自适应方法[41]、[42]、[43]学习域不变特征,将合成数据与真实数据的域对齐,提高模型泛化能力。在本文中,我们利用合成的夜间图像和基于风格转换方法的真实白天图像来训练一个保持细节的夜间网络。然后,我们对训练好的平移网络进行调整,将任何夜间图像转换为日间图像,从而重用训练好的日间图像检测模型。

风格迁移

许多计算机视觉任务需要将输入图像从一个域转换到另一个域,这被视为图像转换问题。基于生成对抗网络(GANs)的方法是一种有前途的图像风格化,其目标是从一个概率分布中取样生成图像。GANs包括两个模型:生成模型和判别模型。前者捕捉图像生成的关键数据分布,后者的目标是区分真实样本和生成样本。CycleGAN[11]将基于gan的图像平移方法扩展为一个无监督框架,其中不需要成对的数据。该算法实现了一个从源域到目标域和从目标域到源域的完整转换周期,实现了周期一致性的规范化。后续的工作通过一个变分自动编码器(UNIT[12])鼓励共享潜在特征空间。ComboGAN[44]和SMIT[45]扩展为多域翻译。GcGAN[46]提出平移网络应保持几何一致性。虽然基于gan的非配对图像转换方法在风格转换中很受欢迎,但由于现有的下采样和上采样网络操作常见,生成的图像可能缺乏细节。在本文中,我们提出训练一个细节保持网络来实现夜间目标检测的非配对域转移。

3、方法

在本节中,我们提出了保留细节的不配对域转移,用于在夜间进行高精度目标检测,而无需对日间数据集上的检测器进行再训练。 我们在第三- A节中介绍了整个框架,并揭示了其中的挑战。 然后,我们的两个主要贡献,即场景感知像素级滤波在第III-B和StyleMix在第III-C,有助于解决这些挑战,并实现更好的检测精度。

1、用于夜间目标检测的保留细节的未配对域转移

我们建议通过将输入的夜间图像转换到相应的日间图像来进行夜间目标检测。 这个任务可以简单地表述为 :

hat{mathbf{I}}=phi(mathbf{I})

我们建议通过将输入的夜间图像转换到相应的日间图像来进行夜间目标检测。 其中φ(·)表示一个传递函数,可以将夜间图像I映射到相应的日间版本。 一个简单的方法是将φ(·)设置为一个受欢迎的发电机,它可以通过对抗性损失进行训练。 然而,我们认为基于GAN的转移很难恢复夜间图像中的细节,这对于精确的目标检测是非常重要的。 如图2所示,基于GAN的方法可能会破坏汽车的详细结构,导致检测缺失。 实际上,目标检测的夜间翻译需要保留与目标相关的细节,例如汽车的结构,同时需要感知夜间的不同场景模式并将其正确映射到日间版本,这给基于深度学习的解决方案带来了两个挑战: 基于深度生成器的流行方法很容易损害目标细节,因为存在常见的瓶颈层,即输入图像通过下采样和上采样传输。 •很难得到成对的数据集,这对于训练具有像素级通信的细节保持的网络非常重要。 这个任务可以简单地表述为

为了解决第一个问题,我们在第III-B节中提出了场景感知像素级滤波用于夜间变换。 与现有的直接使用DNN作为变压器的方法不同,我们的方法通过单层滤波来映射输入图像,其核由离线训练的DNN(称为核预测网络)进行预测。 请注意,单层过滤(没有任何下采样和上采样操作)避免了丢失与对象相关的重要细节的风险。 同时,DNN可以帮助理解场景,预测空间变异的核,从而进行有效的转换。 核预测网络对每个像素预测一个核来捕获局部空间上下文信息,以保留更多的细节信息,如结构信息。 最近的工作[47],[48],[49],[50]已经证明逐像素核预测网络可以实现更好的图像细节恢复。 为了解决第二个挑战,我们提出了一种基于风格转移的数据增强方法,即第三-C节中的StyleMix,来生成夜间-日间图像对,用于训练核预测网络。 我们在图3中显示了整个框架。 直观地说,我们的方法是将输入的夜间图像转换为日间图像进行进一步的目标检测的预处理模块,它由一种新颖而简单的数据增强方法支持,即StyleMix。

B、Scene-aware Pixel-wise Filtering

我们提出了场景感知像素级滤波的夜间变换。具体地,我们将Eq.(1)重新表示为:

hat{mathbf{I}}=mathbf{K} circledast mathbf{I} text { with } mathbf{K}=phi(mathbf{I})

其中text { * } 表示按像素滤波,K为按像素滤波in mathbb{R}^{(k times k) times h times w} 。信道维数mathbf{K}(i, j) inmathbb{R}^{(k times k)}是逐像素核,可应用于输入夜间图像I中每个像素的k×k邻域,通过逐项相乘。φ(·)为核预测网络,用于感知输入图像并对每个像素预测合适的核。

然后,我们获得输入图像的白天版本hat{mathbf{I}} 。由于它是对输入的夜间图像的像素级过滤,它可以在很大程度上保留图像细节而不会损坏。为了充分利用每个图像像素丰富的邻域信息,需要较大的核大小k,但也会增加计算和存储成本。在我们的实现中,内核大小k被设置为5。核预测网络的框架如图4所示。在这项工作中,KPN的训练输入数据是第III-C节合成的夜间图像。具体来说,将合成的两幅不同风格条件的混合夜间图像MN1和MN2分别输入KPN。KPN将分别为每个图像输出特定于图像的逐像素滤波器。然后按元素顺序将特定的过滤器与相应的输入图像相乘,将生成白天版本的图像hat{mathbf{I}}_{i}, i=1,2 。基本损失函数mathcal{L}_{mathrm{pix}}left(hat{mathbf{I}}_{i}, hat{mathbf{I}}^{*}right) 是ground truth日间图像hat{mathbf{I}}^{*} 与转换后的日间图像^Ii之间按像素顺序的L1距离。它被定义为:

mathcal{L}_{mathrm{pix}}left(hat{mathbf{I}}_{i}, hat{mathbf{I}}^{*}right)=left|hat{mathbf{I}}^{*}-hat{mathbf{I}}_{i}right|_{1}

通过测量hat{mathbf{I}}_{1}hat{mathbf{I}}_{2} 的L1距离,我们定义了 hat{mathbf{I}}_{1}hat{mathbf{I}}_{2} 之间的一致性损失mathcal{L}_{text {pix }}-text { cons } 。公式为:

mathcal{L}_{text {pix }-operatorname{cons}}left(hat{mathbf{I}}_{1}, hat{mathbf{I}}_{2}right)=left|hat{mathbf{I}}_{1}-hat{mathbf{I}}_{2}right|_{1}

C. StyleMix: Bridging the Gap to Nighttime Data

采用基于风格转移的方法生成夜间-日间图像对进行KPN训练。为了连接合成夜间数据和目标夜间数据的转换,我们提出SytleMix策略来体现夜间场景的多样性。具体而言,风格传递网络可以保留输入内容图像的结构,并根据输入风格参考对内容图像进行风格化,实现图像转换。如图3所示,我们采用预先训练的风格传输网络、白化着色变换(WCT2),完成白天到夜间的图像转换。对于WCT2的输入,白天图像是内容图像,5个真实的夜间图像作为样式参考。根据目标夜间场景的照明条件,为以下StyleMix选择五个样式参考图像。在白天到夜间的图像转换过程中,StyleMix的作用是减少已转换风格和目标夜间风格的分布变化。它以图5所示的方式工作。具体来说,对于每个白天输入的图像,从5个样式参考中随机抽取3个样式增强链,每个样式增加链由1到2个随机选择的样式传递操作组成。然后将这些风格增强链中传输的图像进行像素级融合,获得第三- b节中混合夜间图像MNi。像素级融合是通过在夜间图像和凸系数之间进行像素级凸运算来实现的。我们从狄利克雷(α;:::;α)分布来构造像素级凸系数的三维向量。图6显示了StyleMix像素级融合合成夜间图像的一个示例。StyleMix的增强混合输出是对翻译后的不同风格的内容图像进行像素级融合的结果。结果表明,StyleMix能够有效地生成各种合成夜间图像,在视觉上接近真实的夜间场景。

针对管道的检测任务,我们构建了检测损失mathcal{L}_{mathrm{det}}left(operatorname{Det}_{i}, operatorname{Det}^{*}right) 和检测一致性损失mathcal{L}_{mathrm{det}-mathrm{cons}}left(operatorname{Det}_{1}, operatorname{Det}_{2}right) 。我们采用平滑L1损失来计算mathcal{L}_{mathrm{det}}mathcal{L}_{text {det }-text { cons }} 。整个流程的总损失是mathcal{L}_{text {pix }}mathcal{L}_{text {pix }-text { cons }}mathcal{L}_{mathrm{det}}mathcal{L}_{text {det }-text { cons }} 的加权和。它被定义为:

mathcal{L}_{mathrm{N} 2 mathrm{D}}=mathcal{L}_{mathrm{pix}} mathcal{L}_{mathrm{pix}-mathrm{cons}} lambdaleft(mathcal{L}_{mathrm{det}} mathcal{L}_{mathrm{det}-mathrm{cons}}right)

在我们的实验中λ设为10。

4、实验

A、数据集

本文利用公共D&N-Car基准[10]验证了该方法的有效性。这是一个真实的西安高速公路交通监控数据集。该数据集包括1200张白天图像和1000张夜间图像,它们的地面真相以包围框的格式跨越不同的时期和日期,每个图像的分辨率为1,280×720。该数据集中总共有57,059个车辆实例。训练集由1000张日间交通图像组成,这些图像带有手动地面真实标签,记作Day-training。测试集包括1200张图片,其中200张是白天的,1000张是夜间的。在200张日间测试图片中,100张为正常交通状态,记为Daynormal; 100张为拥堵交通状态,记为day - congestion。测试集剩余的1000幅图像组成了夜间交通图像的4个子集(分别表示Night1、Night2、Night3、Night4)。在实验中,我们将标记好的日间交通图像(Day-training)表示为源域S,未标记的夜间交通图像表示为目标域T。

B、实验设置

我们在两种不同的场景下进行了实验:1)使用Day-training训练的Faster R-CNN[22]模型检测白天的车辆;2)在提出的夜间图像平移后,利用训练过的Faster R-CNN模型在Day-training中检测夜间车辆。具体的实验设置如下:1)场景1:我们在数据集Day-training上直接监督训练Faster R-CNN模型,分别在Day-normal和day - congestion上测试图像;2)场景2:针对基于风格转换的StyleMix图像平移,我们利用Day-training集合中的1000幅图像和5幅风格参考图像进行夜间图像合成和增强混合样式。对于基于kpn的夜间训练,每个阶段有2000张放大的夜间图像用于训练。然后,将预测的日间图像输入检测任务,进一步拟合平移后的日间图像进行目标检测。为了进行推理,训练后的KPN对真实夜间图像(Night1、Night2、Night3和Night4)进行图像转换,然后对转换后的夜间图像进行训练后的日间检测模型测试,以进行性能评估。我们用训练好的日间模型Faster R-CNN[22]作为基线,直接测试夜间图像的方法。我们还将所提出的方法与UNIT[12]、CycleGAN[11]和GcGAN[46]结合Faster R-CNN的不配对图像平移方法在昼夜和昼夜方向上进行了比较。为了训练图像平移模型,白天的训练数据集为Day-training set,夜间的训练集为Night1、Night2、Night3、Night4的组合。我们在PyTorch中构建了我们的翻译和检测管道。对于对象检测,我们使用ResNet50作为骨干。对于检测训练,我们利用随机梯度下降(SGD)来优化我们的网络,并将初始学习速率设置为0.0001,每10个epoch后衰减一次。实验是在NVIDIA GTX 1080Ti GPU上进行的。对于夜间图像翻译训练,我们使用SGD对KPN进行训练,在两台特斯拉V100 gpu上为200个epoch设置学习率为0.002。为了对车辆检测结果进行综合性能评价,我们采用了广泛应用的目标检测度量mAP (mean average precision)来评价车辆检测结果。对于所有的实验,性能评估使用了一个统一的阈值0.5的交叉口联合(IoU)预测的边界盒和地面真值。

C、基准上的结果

我们首先报告了Scenario 1的一级检测器SSD[19]和二级检测器Faster R-CNN[22]的检测结果,如表2所示。我们可以看到,当交通拥堵时,这两个mAP都从约99%下降到88%。拥挤的情况增加了目标检测的难度,导致检测性能低于不拥挤的情况。由于SSD和Faster R-CNN在mAP方面没有明显的区别,所以我们选择Faster RCNN作为我们后续实验的基线检测器。

D、结果与日-夜翻译方法比较

我们将夜间车辆的检测结果与其他图像平移方法在昼夜方向上进行了比较。根据场景2,本文方法利用第IV-C节获得的白天模型对KPN得到的平移后的白天图像进行车辆检测。但是,对于从日到夜方向进行夜间车辆检测的比较方法,除了日间模型外,还需要另外训练夜间车辆检测模型。例如,以CycleGAN作为日-夜图像转换方法,我们将日间图像以不配对的方式转换为假/合成的夜间图像,然后对这些假/合成的夜间图像进行与日间图像注释相同的Faster R-CNN检测器的训练。然后在夜间图像上对训练后的模型进行检测。对比结果见表3。我们将每个夜间交通图像子集的检测结果以mAP的形式与所有子集的平均mAP进行比较。日-夜图像转换方法UNIT[12]、CycleGAN[11]和GcGAN[46]的表现优于或可与基线Faster R-CNN相比较,后者直接用iv . c秒的日间模型对夜间图像进行测试。以数据集Night4为例,所提方法基于夜间图像平移,无需再训练一个模型,其mAP值最高达到92.94%,比Faster R-CNNn GcGANd2n高出5.4%,比Faster R-CNNn cycllegand2n高出3.3%。比Faster R-CNN UNITd2n高4.8%,比基线Faster R-CNN高5.9%。尽管Faster R-CNNn GcGANd2n在Night1子集上的性能稍好,但该方法对所有夜间交通图像的平均mAP达到了最好的87.80%。我们还提供了传统的均值bgs[52]方法通过背景差进行车辆检测和日间SSD[19]模型直接对夜间图像进行车辆检测。它们在夜间车辆检测方面都比Faster R-CNN差。如图7所示,我们可以清楚地看到,所提方法对各种光照条件都具有鲁棒性。基于UNIT、CycleGAN和GcGAN的方法不能很好地检测出光照条件较差的车辆,并且遗漏了很多黑色车辆,而没有任何图像平移的Faster R-CNN由于白天和夜间场景的域漂移而表现不佳。

E、结果与夜间翻译法比较

我们还将我们的方法与这些图像平移方法在昼夜方向进行了比较。UNITn2d[12]、CycleGANn2d、GcGANn2d比较平移方法首先将夜间图像转换为日间图像,然后将日间图像输入第IV-C节获得的日间模型中进行车辆检测。结果如表4所示。结果表明,在夜间平移的夜间车辆检测中,所提方法比UNIT、CycleGAN和GcGAN的平均mAP性能最好,说明了所提方法的进步。这是因为该方法在图像平移训练中考虑了每个像素的邻域信息和目标检测任务的逐像素核融合,保留了更多对检测任务至关重要的特征,如结构细节。上述图像平移方法从夜间到日间的可视化结果如图8所示。结果表明,该方法能够较好地恢复白天场景的细节信息。单元方法存在模型崩溃,局部纹理和细节不佳的问题。具体来说,平移后的图像是模糊的,特别是图像中车辆的形状和边缘。这与表4中mAP形式的检测性能较差是一致的。CycleGAN可以将车辆的纹理从夜间转换为白天,但对于强烈的道路镜反射不具有鲁棒性。在夜间源图像中出现了不存在的假车辆,导致了更多的假阳性检测样本。更多的黑色车辆消失在CycleGAN翻译的图像中。GcGAN对这种强烈的道路反射也很敏感,导致翻译后的图像中出现更多的假车辆。虽然我们所提出的方法翻译的树存在损坏,但我们的工作目标是在夜间准确检测车辆,我们不太关心夜间翻译的树损坏。从所提出的方法可以看出,平移后的汽车结构更加清晰,更加自然。这是因为从夜间到白天的图像平移训练充分利用了成对的合成数据,像素级对应,逐像素核融合相邻信息,提供了丰富的空间上下文信息。

F、消融研究

在本节中,我们评估了所提出方法中每个步骤的贡献:1)不使用StyleMix训练KPN,而是给定每个白天的图像,从5张风格参考图像中随机选择2张风格参考图像,分别生成2张基于图像平移的合成夜间图像。将两幅合成的夜间图像输入KPN,结合检测任务进行训练。在本节中,我们将此方法视为我们的基线。2)在step 1的基础上,我们在深度和宽度上增加了样式参考,记作Baseline StyleMix。StyleMix有五个样式参考图像,其中两个来自D&N-Car数据集的夜间交通图像。3)测试阶段,我们进行预处理目标夜间图像通过零基准网络[53]改善当地的对比,然后通过KPN形象翻译白天场景,紧随其后的是检测任务通过白天的检测模型,表示基线 StyleMix 0。4)不同的预处理步骤4,我们通过改善小于阈值的像素值来增强局部对比度,表示为Baseline StyleMix contrast。所提方法在四个夜集上的每一步对应mAP评价指标的结果如表v所示。我们可以清楚地看到随着mAP性能的提高,每一步的积极效果。以数据集Night1为例,基线方法在mAP中可以达到62.51%。当增加和混合样式参考图像以体现合成夜间场景的多样性时,mAP增加约13%。当零参考网络和对比度叠加目标夜间图像时,mAP分别增加到79.50%和80.20%。我们通过消融实验来验证StyleMix风格参考设置的有效性。我们构建了一个用于风格参考的夜间图像池,共21张图像,其中7张来自D&N-Car夜间数据集,即本文使用的夜间交通图像,7张来自BDD数据集[54]的夜间场景,另外7张来自WCT2公开的项目网站e1。我们从这个夜间风格的图像池中随机选取5张图像作为整个图像转换模型的风格参考。我们用不同的样式参考设置对StyleMix进行了三个实验。D&N-Car数据集夜间图像有1、2、5张图片作为不同的实验设置:StyleMix1、StyleMix2、StyleMix5。检测结果如表VI所示。结果表明,D&N-Car数据集的夜风图像越多,检测性能越好。这是合理的,因为我们期望StyleMix模型将合成的夜间图像呈现得更接近夜间图像的相应夜间样式。

5、结论

本文提出了一种保持细节的方法来实现夜间图像到日间图像的转换,从而使日间训练的检测模型适应夜间检测。我们首先利用风格翻译方法获取白天和夜间的图像配对,这在实际应用中是很难获得的。我们建议将参考样式混合,以体现合成夜间场景的多样性。随后基于核预测网络对日间图像进行平移,以避免纹理的破坏,并通过检测任务进行训练,使平移后的日间图像既与日间场景具有视觉逼真性,又适合于检测任务对日间领域知识的重用。该方法可以在同一模型下同时实现日间和夜间车辆检测。实验结果表明,该方法获得了有效、准确的夜间检测结果。

0 人点赞