作者 | BBuf 单位 | 北京鼎汉技术有限公司 算法工程师(CV) 编辑 | 唐里
下面要介绍的论文始发于ICCV2019,题为「SNIDER: Single Noisy Image Denoising and Rectification for Improving License Plate Recognition」,axriv地址:https://arxiv.org/pdf/1910.03876 。
在本文中,我们提出了一种用于从真实世界中的低质量图像中进行车牌识别的算法。我们的算法建立在降噪和校正的框架上,并且每个任务都是由卷积神经网络来执行。在先前的研究中,降噪和校正任务分别被一个神经网络来处理。不同以往,我们提出了一种可训练的端到端的图像恢复网络,即“单噪声图像降噪和校正”网络(SNIDER),致力于一起解决这两个问题。此外,我们提出了一种利用辅助任务优化多任务训练损失的方法。在两个具有挑战性的LPR数据集AOLP-RP和VTLPs进行了大量的实验,证明了我们提出的方法的有效性,并且在从低质量的车牌图像中恢复高质量的车牌图像时本方法优于其他的SOAT方法。
一、研究背景
真实世界中的车牌识别(LPR)是多种智能运输系统(ITS)应用程序,如车辆重识别,户外场景理解,用于隐式保护的去识别等的基本问题之一。过去几年,LPR已经在理论,实验和数理方面得到了广泛的研究,以提供鲁棒的图像特征表示。一些LPR方法可以捕获图像和噪声的结构属性,以进行严格的约束。虽然已经取得了一些成果,但由于外观,噪声,角度和光照的变化,在野外进行车牌识别仍不能取得令人满意的效果。近年来,由于卷积神经网络的发展,许多计算机视觉任务取得了很大进步例如目标检测,语义分割,人脸识别等。同时CNN引导的LPR方法也被广泛用于解决识别现实世界中捕获的车牌。然而,现有的LPR方法仍然无法学习到野外所有类型的样本,这些算法实际上是将高质量的图像作为输入。通常,在现实世界中收集的车牌可能包含质量很低的图像,从而导致LPR性能下降。因此,在真实世界场景中开发鲁棒的LPR框架是必要的。
在本文中,我们基于多个辅助任务设计了一个端到端的单噪声图像降噪和校正网络(SNIDER)以实现更好的LPR。Figure1展示了我们的框架,其中SNIDER和预训练的LPR网络(这里是基于Darknet的YOLOV3网络)相结合。SNIDER包括两个子网络:降噪网络和校正网络。基于U-Net在恢复图像细节方面的成功,我们采用U-Net结构作为图像恢复骨干网洛,尝试从结构级别的细节中提取视觉内容。在去噪子网络(DSN)中,我们尝试将低质量的图像直接逐像素地转换为高质量的图像。DSN可以惩罚噪声和无噪声图像对之间的损失,从而获得无噪和有精细纹理的输出图像。但仅仅使用DSN,去噪图像仍不能令人满意,因为图像仍然具有随机的几何变化。因此,校正网络(RSN)被提出用于校正去噪后车牌图像的几何畸变。此外,我们提出利用新的辅助任务进一步优化SNIDER的DSN和RSN网络。一共有两个辅助任务:一个文本计数模块和一个分割预测模块。具体来说,我们使用CNN作为编码器来解决每个辅助模块。计数模块用来预测图像中的文本数量,被当作分类问题。在此模块中,尽管连续文本的边界模糊,文本计数模块仍可区分单个文本,从而使图像质量更适合于文本检测。在分割预测模块中,我们提出了一种二值分割方法来强调前景而不是背景,生成的分割结果使得车牌更加干净以进行文本识别。最后,学习辅助任务将引导图像恢复网络的中间特征,从而增加几何变化和低质量信息等困难。更重要的是,我们引入了新的损失函数,用于训练SNIDER和辅助任务,为LPR提供了更高质量的车牌数据。
二、相关工作
在本节中,我们简要回顾与这项工作最相关的低质量图像恢复方法和车牌识别方法。
2.1低质量图像恢复
为了获得高质量的图像,大多数现有的方法都依赖于这样的假设:信号和噪声都是通过手工算法从特定的统计规律中产生。此外,一些非参数模型被开发来模拟图像噪声,但由于有限的观测结果,它们对野外不受约束的环境并不具有鲁棒性。近来,由于深度学习的发展,大多数降噪算法都是采用深度神经网络体系结构和数据驱动的方法设计的,而非依靠先验技术。尽管文本分类器对于清晰图像很有用,但由于文本几何形状不规则,因此仍难以识别。与现有方法不同,我们使用基于U-Net的CNN对图像进行去噪和校正。据我们所知,我们的研究可能是首个将上诉两个模块同时应用于LPR。
2.2 车牌识别
在深度学习出现之前,大多数传统的LPR方法都采用双阶段的处理流程,包括文本检测和文本识别。随着深度学习的发展,许多方法采用了单阶段流程即不进行文本检测。Li等通过将RNN与LSTM结合来提取深层特征表示,以获取车牌的连续特征。Bulan等基于完全卷积网络估计目标域和多个原域之间的域转换,以产生具有最佳识别性能的域。但这些方法仅考虑高质量的车牌图像,这容易导致模型在现实场景中性能下降。而且这些方法很少努力去改善图像样本质量,同时也占用了大量计算力。在我们的工作中,我们在真实场景中采用低质量图像恢复以提升LPR的性能。这是我们首次应用复杂的图像恢复技术来处理有挑战的真实环境,虽然有额外恢复模块,但我们的方法仍具有较高的计算效率和实时识别能力。
三、方法
我们提出的方法由三部分组成:1)主任务预测网络包括去噪网络GD 和校正网络GR 。2)辅助任务预测网络包括文本计数分类网络GC 和分割网络G 8 。3)用于文本检测和分类的网络LPR。整个框架可以用Figure2来表示。
在训练中,用于主任务和辅助任务的数据集可以通过简单旋转(用于校正)和缩小尺寸(用于降噪)获得,如图Figure3所示。