低光照图像增强(LLIE)对于自动驾驶至关重要。尽管其重要性,现有的LLIE方法常常优先考虑整体亮度的稳健调整,这可能会以牺牲细节保留为代价。为了克服这一限制,作者提出了通过跨注意力 Transformer (ECAFormer)的分层相互增强,这是一种新颖的网络,它利用双多头自注意力(DMSA)来跨尺度增强视觉和语义特征,在此过程中显著保留了细节。 ECAFormer中的跨注意力机制不仅改进了传统增强技术,而且在保持全局亮度调整与局部细节保留之间取得了平衡。 作者在知名的低光照数据集上进行的大量实验验证,包括SID和LOL,以及对暗道路场景的额外测试,在光照增强和降噪方面优于现有方法,同时优化了计算复杂度和参数数量,进一步提高了SSIM和PSNR指标。 作者的项目可在https://github.com/ruanyudil/ECAFormer获取。
I Introduction
在低光照条件下捕捉图像常常会导致各种摄影挑战,如细节数据丢失、色彩强度降低、对比度和动态范围减小以及曝光不均。这些问题会降低视觉数据的质量和清晰度,进而显著阻碍后续基于视觉的任务。例如,它们可能妨碍自动驾驶系统[1, 2, 3]、夜间监控努力[4]以及遥感应用[5]的表现。因此,在低光照图像中提高物体和细节的可见性,对于一系列应用都是一个关键问题,具有广泛的影响。
为了增强低光照图像,已经提出了许多算法来解决低光照环境中的挑战。这些算法可以大致分为两类:知识驱动方法和数据驱动方法。
知识驱动方法包括基于直方图均衡化[6, 7]和基于Retinex模型的方法。在这些方法中,基于Retinex模型的方法受到了相对更多的关注。一个典型的基于Retinex模型的方法通过使用先验或正则化将低光照图像分解为一个反射分量和一个光照分量。然而,基于理论原理的模型常常由于理论的理想化而忽略真实环境中的因素,因此可能无法产生满意的结果。
数据驱动方法通常使用卷积神经网络(CNNs)来学习复杂的图像特征,并基于这些特征生成增强图像。典型的例子包括自动编码器(AE)[16]和生成对抗网络(GANs)[17]。这些深度学习模型也分为端到端模型和基于理论先验的模型,后者使用先验经验来约束神经网络[18, 19]。由于理想假设的缺陷,基于先验的方法可能陷入偏差。与其他领域中Transformer模型的爆炸式发展相比,Transformer模型在低光照图像增强(LLIE)领域的潜力尚未被充分挖掘。此外,低光照图像增强需要空间变化操作[20],尽管Transformer特别擅长捕捉长距离信息。虽然SNRNet[20]承认了这一点,但它仅依赖于单层全局Transformer,从而忽视了不同层次间信息交互的关键作用。
针对LLIE领域的当前情况,作者提出了一个基于Transformer的网络,其中包含一个新颖的高效融合模块,充分利用不同尺度上的信息,以满足长距离和短距离的整合需求。同时,加入预卷积弥补了仅依赖位置嵌入的Transformer在空间上下文引导上的偏差。作者的主要贡献可以总结如下:
- 作者的主要思想是全面结合CNN网络在局部(短距离)细节特征提取能力和Transformer网络在全局(长距离)信息交互能力,并利用U形网络的多尺度交互能力提高增强网络的处理能力。
- 作者提出了一种称为ECAFormer的高级方法,以同时有效地提取短距离和长距离特征。DMSA块使网络具有强大的特征融合能力。作者的工作在LLIE领域的Transformer模型发展方面进行了有意义的尝试和创新。
- 作者在六个数据集上验证了作者提出的方法,广泛的实验结果显示,作者的方法具有卓越的性能和良好的鲁棒性。同时,作者提出的网络在相同计算复杂度下具有卓越的改善效果。
本文结构如下。在第二章,作者分别回顾了低光照增强领域和相关注意机制的相关工作。在第三章,作者介绍了问题的定义、提出的方法以及模型优化的细节。在第四章,作者与七个公开可用的数据集进行了比较,并进行了消融实验以验证其有效性。最后,作者在第五章进行了总结,并提出了未来工作的方向。
II Related work
LLIE: low light image enhancement
知识驱动方法。 CLAHE [21] 通过直方图函数对图像中每个像素的值进行归一化,这种方法缺乏局部适应性,容易导致图像过度曝光或曝光不足。早期的研究通过优化等化函数中的参数来解决这个问题,例如[22],通过改变一个或两个参数,使用直方图等化的推广增强了方法的适应性。随后的大量研究开始使用先验知识来约束等化过程。亮度保持动态直方图等化(BPDHE)[6]通过产生一个其平均强度与输入图像接近的输出图像来扩展传统的直方图等化(HE)。这种方法有效地满足了保持图像原始平均亮度的要求。[23] 通过引入特定的惩罚项来调整对比度增强的水平,这些项通过噪声鲁棒性、黑白拉伸和平均亮度保持进行设计。Retinex模型[24]及其多尺度变体[25]将亮度分解为光照和反射成分,然后独立处理这些成分。LIME [11]引入了一种结构先验来细化初始光照图,最终根据Retinex理论合成增强的图像。此外,还有一些基于伽马校正的工作,例如自适应伽马校正(AGC)[26],它被提出来适当地增强图像对比度。AGC的参数根据图像信息动态设置。
然而,这些手工制作的约束和先验知识缺乏足够的自适应性,无法准确恢复图像细节和颜色,常常导致细节消失、局部过饱和或欠饱和、曝光不均或物体周围出现晕影伪影。鉴于深度学习在各个低级视觉任务中表现出的优势,低光照图像增强领域越来越接受基于学习的方法。
数据驱动方法。 近年来,低光照图像数据集收集的快速发展促使引入了众多基于深度学习的增强方法[27]。这些方法在恢复能力上显著优于传统方法,提供了更好的准确性、鲁棒性和速度。[28]首次研究验证了深度学习方法在低光照增强领域的有效性。[16]提出了一种堆叠稀疏去噪自编码器的变体来增强退化的图像,为深度学习在图像增强中的应用奠定了基础框架。RetinexNet [19]利用基于深度Retinex的架构来增强低光照图像,通过将它们分解为光照和反射成分,然后独立处理这些成分。尽管这种方法具有创新性,但在图像分解方面存在局限性,[29]通过基于Retinex开发三个子网络来解决这个问题,这些子网络用于层分解、反射恢复和光照调整,从而增强了网络的分解能力。Zero-DCE [18]、FlexiCurve [30]、CuDi [31]和ReLLIE [32]将低光照增强任务重新定义为具有固定默认亮度值的图像特定曲线估计问题,其处理速度之快值得注意。RUAS [33]采用了一种基于Retinex架构的复杂搜索展开技术。EnlightenGAN [17]创新性地使用生成式逆网络作为主要框架,最初用非配对图像进行训练。LEDNet,由[34]提出,是一种专门设计用来同时解决低光照增强和去模糊双重挑战的鲁棒网络。[35]引入了PIE,这是一种先进的受物理启发的对比学习范式,专门用于增强低光照图像。随着 Transformer 模型在图像处理中的显著进步,SNRNet [20]采用了一种信号噪声比感知的 Transformer 和一个带有空间变化操作的CNN进行恢复。但它只在U-Net的最低层使用了一个全局Transformer。
总的来说,这些方法主要利用CNN模型作为其主干,未能充分利用最近在图像处理中日益突出的新兴Transformer模型。本文提出了一种配备有交叉注意力模块的 Transformer 模型,它利用 Transformer 全局的感知能力深入整合由CNN模型提取的视觉和语义特征。
Cross Attention
近年来,跨注意力模块在高级下游任务中的有效性已经得到了广泛验证。在图像分类领域,CrossVit [36] 开发了一个基于跨注意力的融合模块,该模块整合了来自小 Patch 和大 Patch 配置的标记,以最小的FLOPs增加提高了模型的准确性。在多模态匹配领域,[37] 提出了创新的MultiModality Cross Attention (MMCA) 网络用于图像和句子匹配。MMCA模型不仅擅长利用每个模态内的同模态关系,还擅长利用图像区域与句子单词之间的跨模态关系,从而增强它们相互匹配的能力。在图像分割方面,[38] 引入了U-Transformer网络,该网络将U形结构与Transformer框架中的自注意力和跨注意力机制相结合。在少样本分类领域,[39] 设计了一个基于跨注意力的模块,为每一对类特征和 Query 样本特征生成跨注意力图,从而突出目标目标区域,使提取的特征更具辨识性。在少样本目标检测领域,TIDE [40] 引入了对称的跨注意力模块,以增强支持特征和 Query 特征之间的交互,最终取得了显著的结果。
总之,跨注意力模块在特征融合方面表现出了强大的能力。因此,本文将跨注意力模块嵌入到Transformer块中,便于深度整合CNN网络提取的视觉和语义特征。通过结合多尺度U-net网络,它在不同尺度上交互特征,最终实现了最先进(SOTA)的性能。
III Methodology
在本节中,作者将详细描述作者提出的每个网络模块及所使用的损失函数。
作者的论文提出了一种具有U形架构的转换网络,如图1所示。低光照输入图像首先经过卷积滤波器以提取详细特征,分别获得语义信息和视觉细节信息。然后,通过使用语义和视觉特征的U形网络的交互增强,获得增强图像。网络模型通过VGG感知损失和Charbonnier L1损失进行优化。
Problem Definition
低光照图像增强旨在解决在光照不足条件下捕获的图像中存在的亮度低、对比度低、噪声和伪影等问题。这些问题源于图像拍摄时由于照明不足或复杂环境导致的视觉信息丢失。低光照图像增强的目标是通过算法和技术方法恢复和改善低光照图像,使它们更接近正常图像,并且更容易被人类视觉系统理解。
该问题可以数学建模如下:
其中表示输入图像,表示增强后的图像,表示网络函数的参数。
优化过程的目标是找到使增强图像与参考高光照图像之间差异最小的最优参数。这可以表述为:
其中表示曝光良好的参考图像,表示用于指导网络的损失函数。
Network framework
网络框架部分的开头。
Iii-B1 Preliminary
卷积神经网络(CNNs)擅长提取详细的局部特征,而Transformer网络在捕捉复杂环境中的有价值全局特征信息方面表现出色。在CNN中,随着卷积层深度的增加,提取的特征逐渐体现更丰富的语义信息。因此,从初始的浅层卷积操作中获得的特征主要是视觉性质的,而从更深的卷积层中提取的特征则包含更复杂的语义洞察。为了利用这些特点,作者设计了一个复杂的卷积提取器:
保留了丰富的详细视觉特征,而则保存了先进的语义信息。这两个属性对于实现增强的最终结果都至关重要。
注意力机制允许每个元素与其他元素互动,从而显著增强全局特征提取能力。传统的自注意力机制如下所示,公式4。向量、和分别表示 Query 、键和值,都来自单一输入。此操作选择性地关注关键信息,优化资源使用并迅速捕捉最相关数据。利用这一优势,作者开发了一个独特的双分支多头自注意力模块,DMSA,以促进两种不同特征的融合。这个模块处理两个输入并通过注意力机制使它们互动,同时保持它们维度的一致性。作者将在第三节B3中详细讨论这个模块。
作者集成了一种带有残差连接的U形网络架构,专门设计用于增强网络进行多尺度互动的能力。这种架构促进了不同尺度特征的全面综合。在降采样阶段,作者策略性地采用了2的缩放因子,迫使网络进行严格的压缩过程。这种强制压缩是关键的,因为它使网络能够提取更精细的全局信息,这对于理解更广泛的上下文线索至关重要。降采样阶段的方法和具体内容在公式5中表示。
其中表示降采样阶段的步骤,DMSA_Block在不同步骤中由不同数量的DMSA模块组成。在U形网络的底部,作者使用了一个瓶颈,由两个DMSA模块组成,在升采样过程中,作者采用了与降采样成比例的操作。在升采样阶段,作者加入了残差连接,以有效地保持和恢复在降采样过程中经常丢失的复杂细节。这些残差连接首先与它们对应特征进行交叉注意力处理,然后两种类型的特征通过CSDMSA_block进行交叉注意力处理。这个过程在保持特征表示的保真度方面发挥着关键作用,确保重构的输出与原始输入紧密对应。最后,作者通过拼接和映射卷积获得最终输出。最终输出可以表示为公式6
Iii-A2 Visual-Semantic Convolution Module
图3:视觉-语义卷积模块。更深的特征更关注语义信息,而更浅的特征更关注视觉信息。
图2:从上到下分别是网络的浅层输出和深层输出。可以看出, 更关注细节,而 强调图像内更广泛的连接和上下文关系。
受到卷积层增强局部特征的强大能力的启发,作者设计了一个专门用于捕捉局部特性的视觉-语义卷积模块。在CNN中,随着卷积层数量的增加,模型的感受野逐渐扩大,导致提取的语义特征越来越复杂。然而,这种扩展常常导致特征中的细粒度细节衰减。为了解决这个问题,作者引入了一个专用的卷积模块,输出两种不同的特征: 和 。在这里, 来自浅层卷积层,捕捉详细的视觉特征,而 来自深层卷积层,包含更高层次的语义信息。此外,卷积神经网络本质上有能力捕捉周期性和局部空间特征,解决仅依赖位置嵌入的Transformer中的空间上下文诱导偏差。作者在该模块中使用深度可分离卷积,以提高前向传播的速率而不损害准确性。通过这个模块处理后,网络再利用注意力机制来促进这两种不同特征之间的动态交互。
Iii-B3 Dmsa
自注意力在将注意力集中在关键信息上非常高效,从而优化资源利用并快速获取最相关的数据。然而,其标准配置仅限于处理单一输入,这可能限制了在需要多个数据流之间复杂交互的场景中的适用性。为了解决这一限制,作者创新了双重多头自注意力(DMSA)模块,这是一个设计用于有效管理和整合双重输入的复杂机制。在这个模块中,输入 和 被处理以通过单独的映射生成不同的 、 和 向量集合。作者在这个模块中有策略地交叉两个输入的关键向量,以增强它们之间的互联性,促进更丰富、更全面的交互。这是通过将 Query 向量与相应的交叉关键向量相乘实现的,产生一个包含两个输入之间复杂动态的注意力图。通过U形网络的适应性采样操作,这种设置便于在多个尺度上进行深入交互,这对于复杂分析和解释任务中特征的细腻整合至关重要。
缩放因子 通过优化确定。为了保持像素之间的空间位置关系,作者通过卷积操作引入了一个位置编码模块。因此,双重多头自注意力模块的输出可以形式化地在方程8中定义。
Loss function
作者采用了两种与人类视觉感知更一致的损失函数,这有助于模型更快地训练。总损失可以表示为等式9,。
其中 是感知损失,而 是Charbonnier损失。
Iii-C1 Perceptual Loss
感知损失[41]采用了一种有效的方法,通过计算经过相同预训练神经网络的 GT 图像和重建图像之间,特定层或多个层特征聚合后的特征提取之间的平方误差,来量化差异。这种技术超越了传统的基于像素的差异计算,为处理异常和增强模型的总体鲁棒性提供了一种更优的方法。通过将损失计算集中在特征表示深层中的方差上,感知损失巧妙地捕捉并强调高级语义的细微差别。因此,这种方法产生的图像更能准确地反映人类的视觉感知,从而使得输出更紧密地与人类视觉的复杂性相一致。
[ text感知损失}=sum_{i=1}^{n}frac{1}{C_{i}H_{i}W_{i}}leftF_{i^l}(f(hat{I}))-F_{i}^{l}(R)right^{2tag{10} ]
图4:DMSA:图中展示了一个高度对称的模块,它描述了计算由引导的特征的过程()。通过对称方法可以获得。
图5:感知损失:在冻结的VGG19网络上提取特征并实施损失
其中,代表增强网络。表示-层的第i个特征图。作者使用在ImageNet上预训练的VGG-19网络,并利用其前五个ReLU层的输出特征图来计算损失。这种方法利用了深层网络的架构来提取丰富的、复杂的特征表示,这对于评估增强图像的感知质量至关重要。#### III-B2 Charbonnier 损失
与传统的损失相比,Charbonnier 损失在处理异常值时显示出更高的鲁棒性和稳定性。此外,由于Charbonnier 损失依赖于单个平方和开根操作,而不是普通损失所需的绝对值计算,其计算效率也得到了提高。这种简化的计算不仅加快了处理速度,而且有助于产生更平滑的梯度,从而在模型训练期间实现更有效的优化。
[ text{Charbonnier损失}=sum_{i=1}^{n}sqrt{(hat{I}-R)^{2} epsilon^{2}} tag{11} ]
得益于epsilon的添加,当和非常接近时,梯度消失的现象得到了缓解,使得模型更容易训练。
IV Experiment
Experimental configurations
数据集。作者在多个公开数据集上进行了比较:LOL-v1 [19],LOL-v2 [42],SID [43],SMID [44],以及SDSD [45]。
Traffic-297. 作者收集了297张由交通监控摄像头拍摄的图片,并按照LOL的方法论创建了相应的图像对。这些图片涵盖了不同的天气条件和交通场景。其中,50张用于测试,247张用于训练。
LOL-v1. 该数据集是首个包含在现实场景中捕获的低光与正常光线图像对的数据集。该集合中的低光图像是通过精心调整曝光时间和ISO设置收集的。该数据集包含500对低光与正常光线图像,每张图像尺寸为400x600,并保存为RGB格式,为增强低光图像处理技术提供了全面的资源。训练集和测试集的比例为485:15。
LOL-v2. LOL-v2数据集包括两个不同的子集:LOL-v2-real和LOL-v2-synthetic。LOL-v2-real子集是在真实场景中通过改变ISO设置和曝光时间捕获的。在LOL-v2-synthetic子集中,通过分析低光条件下的光照分布,从RAW图像合成了低光图像。训练集和测试集的比例为689:100和900:100。
SID. 作者使用了SID数据集的Sony 7S II子集进行评估。它包含2,697对短/长曝光RAW图像对。通过应用SID的相机内信号处理技术将RAW图像转换为RGB格式,得到低光/正常光线RGB图像。其中,2,099对用于训练,598对用于测试。
SMID. SMID基准汇集了20,809对短/长曝光RAW图像对。作者使用一致性的转换过程将这些RAW数据集转换为低光/正常光线RGB图像对,以确保数据完整性。用于模型训练的有15,763对,其余的用于严格的测试。
作者使用了SDSD数据集的静态版本,该数据集是通过配备有中性密度(ND)滤镜的佳能EOS 6D Mark II相机拍摄的。数据集包括室内和室外子集。对于SDSD-indoor子集,作者分配了62对低光/正常光视频用于训练和6对用于测试。同样,对于SDSD-outdoor子集,作者使用了116对进行训练,同时保留了10对用于测试。
训练。 作者使用PyTorch实现了ECAFormer模型。该模型在配备有24GB VRAM的NVIDIA RTX 4090上,使用Adam优化器(1=0.9和2=0.999)进行了训练,总共进行了250,000次迭代。初始学习率设置为2x10,并在训练过程中通过余弦退火计划逐渐降低到1x10。训练样本是通过从低光/正常光图像对中随机裁剪128x128的块生成的。批量大小设置为8。训练数据通过随机旋转和翻转进行增强,以提高变化性和鲁棒性。训练目标是最小化增强图像与相应 GT 之间的(III-C1)和(III-C2),确保在图像细节和颜色准确性的恢复方面具有高保真度。
指标。 作者采用峰值信噪比(PSNR)方程12和结构相似性指数(SSIM)方程[46]13作为主要的评估指标。
对比方法。 为了验证模型的有效性,作者与近年来最先进的模型进行了广泛的比较。所对比的模型如下:SID [43],UFormer(UF) [47],RetinexNet(RN) [19],EnlightenGAN(EnGAN) [17],RUAS [33],DRBN [48],KinD [29],Restormer [49],MIRNet [50],SNR-Net [20]。
Results analysis
定量结果。作者使用两个指标PSNR和SSIM在七个公共数据集上比较了作者的模型,结果分别展示在表3和表4中。结果表明,在保持相对较低的参数数量和计算复杂性的同时,作者的模型达到了最先进(SOTA)的性能。
本文提出的ECAFormer产生了高质量的结果,这些结果近似于真实图像。
Ablation study
为了验证本文提出的模型中各个模块的有效性,作者调整了模型的架构,并在SDSD-out数据集上报告了PSNR结果。
CNN_feat. 作者验证了浅深层卷积模块的有效性。当不使用该模块时,输入图像会直接 Reshape 为MGMSA所需的格式。
VGG_CbLoss. 通过比较均方误差(MSE)损失与本研究所使用的两种损失类型,验证了损失函数的有效性。
DMSA. 用经典的自我注意力机制替换DMSA,以验证该模块在特征融合中的性能。
结果表明,这三个模块都对本模型的性能产生了积极影响,并且是有效的。其中,DMSA模块在特征融合方面的性能最为显著。
V Conclusion
在本文中,作者提出了一种基于Transformer的一阶段方法,特别使用DMSA块来增强低光照图像。
此外,ECAFormer的网络结合了卷积神经网络中的局部细节特征信息提取能力和Transformer网络中的全局信息提取能力。
因此,ECAFormer可以从图像中提取全局信息和局部信息。广泛的实验未来工作。近年来,在大量数据集上训练的模型逐渐发展。从大型模型中整合先验知识可以缓解当前损失函数的限制,并扩展到无监督学习。
二维傅里叶变换在处理图像细节方面具有巨大潜力,并可以整合到本文提出的DMSA模块中,实现频率和时间域的交互。
参考
[1].ECAFormer: Low-light Image Enhancement using Cross Attention.