Super-Resolution on Object Detection Performance in Satellite Imagery

2022-09-03 20:54:43 浏览数 (1)

目录

摘要

1、简介

2、相关工作

2.1、超分辨率技术及其在高空成像中的应用

2.2、目标检测方法

3、数据集

3.1、光和传感器的模拟

4、超分技巧

5、目标检测技巧

6、度量

7、实验结果

7.1、超分性能

7.2、目标检测性能

8、结论


摘要

探讨了超分辨率技术在卫星图像中的应用,以及这些技术对目标检测算法性能的影响。具体来说,我们提高了卫星图像的固有分辨率,并测试我们能否以比固有分辨率更高的精度识别各种类型的车辆、飞机和船只。使用非常深的超分辨率(VDSR)框架和自定义随机森林超分辨率(RFSR)框架,我们生成了2×、4×和8×的增强级别,超过5个不同的分辨率,范围从30厘米到4.8米不等。使用本地和超解析数据,然后使用SIMRDWN对象检测框架训练几个定制的检测模型。SIMRDWN将许多流行的目标检测算法(如SSD、YOLO)组合成一个统一的框架,用于快速检测大型卫星图像中的目标。这种方法允许我们量化超分辨率技术对跨多个类和分辨率的对象检测性能的影响。我们还量化了目标检测的性能作为一个函数的本机分辨率和目标像素大小。对于我们的测试集,我们注意到性能从30 cm分辨率下的平均精度(mAP) = 0.53下降到4.8 m分辨率下的mAP = 0.11。从30厘米图像到15厘米图像的超级分辨效果最好;mAP改进了13 - 36%。对于较粗的分辨率而言,超级分辨率的好处要小一些,但仍然可以在性能上提供小的改进。

1、简介

超分辨率技术和目标检测框架之间的相互作用在很大程度上仍然没有得到探索,特别是在卫星或架空图像的环境中。直观地说,人们可能会认为超分辨率方法应该会提高目标检测性能,因为分辨率的提高应该会增加目标检测算法用于描述的可区分特性。由于多种原因,探测卫星图像中的车辆等小型物体仍然是一项极其困难的任务,人工提高分辨率可能有助于缓解其中一些问题。目前的一些问题包括:

  1. 卫星图像中的汽车等物体的空间范围很小(低至10像素),而且常常密集地聚集在一起。
  2. 所有的物体都表现出完全的旋转不变性,可以有任何方向。
  3. 与其他训练相比,训练示例的频率较低。很少有数据集对卫星图像中的物体有合适的标签。最值得注意的是:SpaceNet,一个用于航空图像(DOTA)中的目标检测的大型数据集,Cars Over-head With Context(COWC),以及xView。
  4. 大多数卫星的传感器覆盖范围很广,并包含数亿像素,因此可以产生超高分辨率的图像。例如,本研究使用的原始图像平均约为基准超分辨率数据集Set5、Set14、BSD100和Urban100的57倍。当使用现代神经网络架构时,这些图像必须被平铺成更小的块以进行训练和推理。

虽然已经有一些研究使用SR作为预处理步骤,但是没有一个研究量化了它对多分辨率卫星图像中目标检测性能的影响。本研究的目的是通过训练多个自定义对象检测模型来识别车辆、船只和飞机,从而完成这一任务。然后,我们在相同的地面样本距离(GSD:在地面上测量的像素之间的距离)的本地(ground truth)图像和超分辨图像上测试模型的性能。此外,这是首次展示超分辨率15cm GSD卫星图像输出的研究。虽然没有本地的15厘米卫星图像可供比较,但可以将这些数据与较粗的分辨率进行比较,以测试超分辨率所带来的好处。这样一项研究的成本效益分析是巨大的。卫星制造商把大部分预算花在卫星的设计和发射上。例如,DigitalGlobeWorldView-4卫星的成本估计为8.35亿美元,其中包括航天器、保险和发射。理想情况下,人们可以将一种有效的SR增强算法与一种更小、更便宜、能够获取更粗分辨率图像的卫星结合起来。捕获并随后增强较粗数据的过程可以大大降低发射成本,扩大卫星视野,减少轨道上的卫星数量,提高卫星与地面控制站之间的下行速度。

2、相关工作

2.1、超分辨率技术及其在高空成像中的应用

单像超分辨率(SR)是从单低分辨率(LR)图像中获得高分辨率(HR)图像的过程。虽然超分辨率仍然是一个不适定的和困难的问题,但最近在神经网络和机器学习方面的进展使更健壮的SR算法能够显示出有效的性能。这些技术使用高分辨率图像对来学习最有可能的HR特征,以映射到LR图像特征并创建输出SR产品。在过去的五年里,卷积神经网络方法已经被用来产生最先进的超分辨率结果。Dong等人首先利用SRCNN建立了深度学习方法。接下来是几个连续的方法,主要的改变和改进。Very Deep Super Resolution (VDSR)展示了最先进的表现,它是第一个修改SRCNN方法的项目,通过创建一个20层的深度网络来学习残差图像,并将LR图像转换成HR图像。同时,深度递归CNN (DRCN)引入了一种递归神经网络方法来超分辨图像。深度递归残差网络(DRRN)建立在VDSR和DRCN改进的基础上,它结合了残差层方法和紧凑网络中的递归学习。

更复杂的方法,如拉普拉斯金字塔超分辨率网络(LapSRN)。还采用了对抗性训练,SR生成对抗性网络(SRGAN)生成了逼真的4×增强图像。还建议使用更广泛和更深层次的网络。其中最引人注目的是Lim等人提出的增强深剩余网络(EDSR)。最近,Deep Back Projection Network (DBPN)通过连接一系列迭代的上、下采样阶段,表现出8×增强的最佳状态。较新的基于块的方法,如信息蒸馏网络(IDN),被发展成一个紧凑的网络,可以逐步提取共同特征,用于快速重建HR图像。在另一个例子中,剩余密集网络(RDN)[43]使用剩余密集块来产生强大的性能。尽管新的、强有力的单幅图像增强技术仍在不断发展,但这些技术已越来越多地应用于高空成像。超级分辨率在卫星和高空图像中最不可表的应用之一仍然是Bosch等人最近的论文。作者分析了本研究的几个卫星图像来源,并量化了它们在使用GAN进行8×增强的PSNR方面的成功。在另一个例子中,[22]使用深度神经网络同时进行4×超分辨率和卫星图像着色。多篇论文[41、25、35、20、28]修改或利用SRCNN[7]和/或VDSR[15]成功超分辨Jilin-1、SPOT、Pleiades、Sentinel-2和Landsat影像。

最终,一些具体的论文是这项工作的直接前导:在第一,[3]使用精细的航空图像和粗糙的卫星图像与耦合字典学习方法来超级增强车辆和检测他们与一个简单的线性支持向量机模型。他们的结果表明,相对于原始的粗糙图像,使用SR作为预处理步骤可以提高目标检测性能。Xu等人使用稀疏字典学习从Landsat和MODIS图像对生成合成的8×和16×超分辨图像。结果表明,使用超分辨率图像可以提高地表覆盖变化映射的性能。虽然这些方法与我们的类似,但它们不能使用更新的基于神经网络的方法,而且范围更窄。最后,[10]利用DBPN[9]超分辨图像,利用SSD[23]检测传统摄影中的各种物体。他们量化了他们在mAP方面的成功,并在这项工作中加入了一个新的元素,即设计一个损失函数来优化SR的目标检测性能。他们的结果表明,这些算法的端到端训练提高了目标检测任务的性能,是未来研究的一个有前途的途径。总的来说,我们假设SR技术可以提高目标检测性能,特别是在使用卫星图像时,但是还没有进行过这样的研究。为了解决这个问题,我们的研究调查了目标检测性能和分辨率之间的关系,包括5个独特的GSD分辨率,每个分辨率有6个SR输出。最后,我们研究了35个独立的分辨率配置文件的目标检测性能。

2.2、目标检测方法

最近的一些论文已经将先进的机器学习技术应用到航空或卫星图像中,但它们关注的问题与我们试图解决的问题略有不同。例如,[24]演示了在开销图像中定位目标的能力;然而,应用于更大的区域会有问题,推理速度为每1280×1280像素图像芯片10到40秒。通过卫星图像和滑动窗口分类器来定位地对空导弹发射场[26]的努力是有效的,如果你只对一个几百米大小的物体感兴趣的话。然而,在大型卫星图像上运行滑动窗口分类器来搜索感兴趣的小目标在计算上很快就变得难以处理,因为每个目标大小都需要多个窗口大小。在数字地球图像中,如果目标是一艘10米长的船,为了获得透视效果,必须评估超过100万个滑动窗口。快速目标检测算法在遥感领域的应用尚处于起步阶段,在最近的一次遥感探测领域的调查中,对SSD[23]、Fast R-CNN、R-FCN、YOLO等的引用较少。虽然平铺一张大的图片仍然是必要的,但是与简单的分类器(低至10个像素)相比,这些框架更大的视场(几百个像素)导致所需的平铺数量减少了1000倍。这样就减少了块的数量,从而相应地显著提高了推理速度。此外,由于网络对每个对象的上下文信息进行编码,因此目标检测框架通常具有更好的背景区分(与滑动窗口分类器相比)。在研究超分辨率对真实卫星图像中目标检测性能的影响时,基于上述原因,快速目标检测框架是本研究的逻辑选择。首要的快速目标检测算法(SSD、Fast R-CNN、R-FCN和YOLO的改良版YOLT)最近被整合到SIMRDWN的统一框架中,该框架针对摄取卫星图像进行了优化,通常为数亿像素大小。SIMRDWN的论文报告了最高的性能来自YOLT算法,其次是SSD,Faster R-CNN和R-FCN明显落后。

3、数据集

选择xView数据集用于超分辨率技术的应用和目标检测性能的量化。图像由1415平方公里的DigitalGlobeWorldView-3泛锐RGB图像组成,以30厘米本地GSD分辨率分布在56个不同的全球位置和6个大洲(不包括南极洲)。用于目标检测的标记数据集包含60个类中的100万个目标实例,这些类用边界框标注,包括各种类型的建筑物、车辆、飞机、火车和船只。出于我们的目的,我们最终放弃了诸如“Building”、“Hangar”和“Vehicle Lot”之类的类,因为我们发现,对于基础映射而言,使用多边形标签而不是包围框更好。由于数据集中的标记不一致,我们选择了聚合模式。不幸的是,许多目标被错误地标记或标记者简单地忽略了(参见图1)。这导致了假阳性检出率的增加,以及在推断之后被错误地标记为误分类的目标。此外,许多xView类的训练示例数量非常少(例如,Truck w/Liquid只有149个示例),与类似类的区别也很低(例如,Truck w/Box有3653个示例,看起来与Truck w/Liquid非常相似)。需要多少训练实例才能将类似的类分离出来,这个问题超出了本文的范围。类最终由下列括号中列出(原xView类别):小飞机(固定翼飞机,小型飞机),大型飞机(货机),小型车辆(客运车辆、小型汽车、皮卡、效用卡车),公共汽车/卡车(公共汽车、卡车,运货卡车,卡车w /盒,w /平板卡车,卡车w /液体,自动倾卸卡车,卡车运输,水泥搅拌机,牵引车),和船(摩托艇、帆船、游艇、海上船只,拖船,驳船,渔船,渡轮)。数据集详细信息见表1,目标大小直方图见图2。

3.1、光和传感器的模拟

所有数据都经过了一致的预处理,以模拟更粗分辨率的图像,并测试我们的SR技术对一系列分辨率的影响。我们希望我们的研究结果能够展示,在粗糙的卫星图像条件下,我们能够合理地完成哪些工作,而不是简单地在大多数SR算法引入的理想环境下(不模糊、双三次抽取),我们能够完成哪些工作。我们试图通过模拟光学点扩展函数(PSF)和使用更健壮的抽取算法来尽可能精确地模拟更粗分辨率的卫星图像。这是很重要的,因为望远镜的光学很大程度上影响了非常小的物体的外观。通常的做法是简单地通过将尺寸减少两倍来调整图像的大小,这将模拟一个包含1/4像素的不同传感器;然而,这种方法忽略了不同的光学呈现在一个适当设计的望远镜,将耦合到这样的传感器。一个适当设计的传感器应该有奈奎斯特采样率决定的像素大小:由衍射极限决定的镜像分辨率的一半大小。考虑到将卫星成像星座发射到轨道的成本和复杂性,我们假设所有成像卫星都将有适当设计的传感器。我们可以使用Nyquist采样的假设来确定望远镜光学的PSF,它可以近似为一个合适的高斯核尺寸:

text { kernel }=0.5 times G S D_{text {out }} / G S D_{text {native }}

在我们的研究中,数据从本地退化30厘米德牧使用一个变量高斯模糊内核来模拟卫星的点扩散函数取决于我们期望的输出分辨率(方程1)。然后用inter-area大批杀害减少模糊图像的尺寸相应的输出大小(例如60厘米图像会有1/4像素的数量为30厘米图像在同一领域的视图)。我们重复上述步骤来模拟60、120、240和480厘米的分辨率。将地面真值数据和超分辨率算法的输出随机分为训练类(60%)和验证类(40%)进行目标检测。不管分辨率如何,相同的图像都包含在训练集和测试集中,以便在比较验证分数时保持一致性。

4、超分技巧

本研究采用2×、4×、8×两种增强技术,在30厘米至4.8米的5种不同分辨率范围内进行超分辨。我们还创建了15厘米的GSD输出图像,使用训练的模型来超级解析图像,从60厘米到30厘米,从120厘米到30厘米。我们的第一个方法是一个卷积神经网络衍生技术,称为非常深的超分辨率(VDSR)。VDSR是近年来大多数超分辨率研究的baseline,是最早对最初提出的卷积神经网络方法SRCNN[7]进行修正的一种方法。之所以选择这种体系结构,是因为它易于实现、能够进行多个级别的增强训练、在引入新技术时用作标准基线以及过去良好的性能。我们使用原始论文[15]中设定的标准网络参数,训练60个epoch。我们选择了一个大小为41×41像素的patch,并通过旋转(4)和翻转(2)来增加每个patch 8个唯一的组合。对每个增强级别(2、4、8×)重复此过程,并将每个增强级别输入到相同的网络中进行并行训练。在单台Titan Xp GPU上,2、4和8×增强2亿像素示例的平均训练时间为55.9小时。在同一硬件上,544×544像素图像的推理速度非常快,约为0.2秒,这使得该方法易于扩展以适应大型卫星图像。

第二种方法是一种我们称之为随机森林超分辨率(RFSR)的方法,是为这项工作而设计的;它需要最少的训练时间,并显示出很高的推理速度。RFSR是对其他随机森林超分辨率技术(如SRF[32]或SRRF[13])的一种适配,可以处理地理定位卫星图像或传统摄影。我们选择包含这个更简单、计算量更少的算法,它不需要GPU来测试它对接近最先进的SR解决方案的有效性。假设即使是一个简单的技术也可以提高目标检测的性能。我们的方法使用一个随机森林回归数与几个标准参数。估计器的数量设置为100,最大深度设置为12,分割内部节点的最小样本设置为200。最后,我们使用引导带和出袋样本来估计训练过程中随机选择的不可见数据的误差和R2得分。使用经验测试对这些参数进行了微调,以最大限度地提高PSNR得分(有关度量的详细信息,请参见第6节),同时保持最少的训练时间(在64GB RAM CPU上每级增强4小时或更少)。值得注意的是,PSNR分数可以通过使用更深入的树和更多的估计值来略微提高,这是以训练时间为代价的。与其他几种SR技术一样,RFSR仅使用来自YCbCr转换图像的亮度组件进行训练。对HR图像进行降级,以创建LR和HR图像对。退化后的LR图像相对于HR图像在每个方向上分别移动一个像素和两个像素,然后压缩成一个三维数组。然后,从3-D LR阵列和HR图像中减去原始的上采样LR图像,作为剩余训练模式。这使LR堆栈和HR图像对归一化,同时去除均匀区域,强调重要的边缘效果。经过训练和推理后,将插值后的LR图像加入到模型的输出图像中,得到超分辨输出。RFSR一次只能产生一个级别的增强(2、4或8倍)。对于∼2亿个像素样例的所有三个增强,在64GBRAMCPU上的平均训练时间是10.8小时。对于相同的硬件,544×544像素图像的平均推断速度是0.7秒(表2)。

5、目标检测技巧

正如第1节所讨论的,通过SIMRDWN框架,先进的目标检测框架只是最近才被应用到大型卫星图像中。在SIMRDWN paper中,作者报告了YOLT算法的最高性能,其次是SSD,速度更快的R-CNN和RFCN明显落后。因此,我们选择在SIMRDWN中使用YOLT和SSD模型进行研究。YOLT模型采用[36]致密的22层网络,动量为0.9,衰减率为0.0005。我们使用一个544×544像素的训练输入尺寸(对应164×164米)。训练持续了150个时代。对于SSD模型,我们遵循先启V2架构的TensorFlow目标检测API实现。我们采用0.004的基本学习率和0.95的衰减率。我们训练了3万个迭代,批大小为16,使用与YOLT相同的544×544像素输入大小。YOLT和SSD我们训练模型在“定位”意象(原始30厘米数据,3.1节中描述的卷积和缩放图像),以及输出的RFSR andVDSR应用于目标检测训练集。这种方法能得到大量的模型在无数的体系结构、超分辨率技术和决议。

6、度量

总的来说,超分辨率仍然是一个活跃的研究领域,对最终应用的直接关注非常有限。典型的性能度量包括峰值信噪比(PSNR)或结构相似度(SSIM)指数(我们在第7.1节中报告),但是这些度量没有量化对目标检测性能的增强。尽管由于超分辨率的原因,这些图像在视觉上可能更吸引人,但这些技术对目标检测性能的影响可能很小。对于目标检测指标,我们将每个测试图像的ground truth边界框与预测边界框进行比较。为了将预测与ground truth进行比较,我们将真正定义为联合(IOU)上的交集大于给定阈值。一个0.5的IoU经常被用作正确检测的阈值,尽管我们采用了一个较低的阈值0.25,因为我们的大多数目标都非常小(例如:汽车在范围内只有10个像素)。这类似于ImageNet[31]的公式5,它将IoU阈值设置为0.25,目标范围为10个像素。通过在一定的概率阈值范围内评估测试图像,可以计算出精确回忆曲线。在0.05和0.95之间的30个均匀间隔阈值中,我们放弃所有低于给定阈值的检测。每个对象类的非最大抑制随后应用于其余的边界框;该阈值处的精度和召回率由所有测试图像的真阳性、假阳性和假阴性之和制成。最后,我们计算每个对象类和每个模型的平均精度(AP),以及每个模型的平均精度(mAP)。通过bootstrap重采样,每个场景使用500个样本,计算出1-sigma误差条。

7、实验结果

7.1、超分性能

正如预期的那样,VDSR方法的超分辨率性能最强,尽管RFSR在某些情况下可以产生类似的结果(表1)。这两种技术在60厘米的图像上表现得最强,可能是因为初始的双三次插值分数很高,而且图像分辨率介于粗尺度和细尺度之间,图像特征更容易检测和增强。在图3中可以看到一个超级分辨率性能的具体例子,我们在图3中测试了我们的算法对一个大目标(比如一个平面)的效果。在视觉上,VDSR和RFSR在30 cm时都表现得很好,对于2×(60 cm输入→30 cm SR输出)和4×(120 cm输入→30 cm SR输出)的增强,可以精确地恢复平面的细节和小的邻近物体。在较粗分辨率下恢复平面是非常困难的,特别是在4.8米,增强8倍的情况下。在本例中,SR算法的输入为38.4 m GSD;在这种分辨率下,卫星的灵敏度根本不足以分辨更细微的物体。总的来说,我们观察到,当图像在较粗的分辨率中具有较少的需要识别的精细特征时,算法无法产生幻觉并恢复所有目标类型。不同的算法,如GAN,可能会产生视觉上更精细的特征,但是之前的研究[2]已经表明,这些算法不能准确地恢复各种目标类型的特定特征。最后,在图4中,我们演示了VDSR和RFSR模拟的15 cm超分辨输出所提供的视觉增强效果。这两种方法通过减少像素化和增强特征和字符的清晰度来提高视觉质量。RFSR似乎比VDSR产生更明亮的边缘效果。

7.2、目标检测性能

对于每个模型,我们计算平均精度(mAP)在横跨6大洲(632平方公里)的338幅图像测试集上的性能。在每个分辨率下。图6显示了示例的精确召回曲线。YOLT模型明显优于SSD,特别是对于小型对象。对所有模型重复图6中所示的计算可以使我们确定性能的下降作为分辨率的函数,如图7所示。在这个情节我们显示1σ为每个模型组引导误差。SSD模型的结果明显比YOLT模型差,在30厘米分辨率下的mAP为0.30。此分辨率下的YOLT模型(mAP = 0.53)比SSD好77%,与[37]的结果基本一致。最终,当分辨率从30厘米下降到120厘米时,目标检测性能下降了22 - 27%,而当分辨率从120厘米下降到480厘米时,目标检测性能又下降了73 - 100%。我们还绘制了使用bothYOLT和SSD时2×超分辨率模型的效果结果(图11和图9)。使用YOLT时,性能改进仅在最细分辨率下具有统计学意义(表7),VDSR和RFSR的结果具有可比性。在图11中,我们显示了与原始的30厘米和60厘米图像相比,mAP的变化。最大的性能提升可以看到,增强图像从30厘米到15厘米( 13% vs 30厘米)和60厘米到15厘米(14 - 20% vs 60厘米)。有趣的是,在60厘米至30厘米之间增强图像的效果远远低于在60厘米至15厘米之间增强图像的效果。这些发现展示了超分辨率作为这些GSDs预处理步骤的价值。与最先进的目标探测框架相结合,超分辨率具有提高探测率的能力,超出了最佳商用卫星图像的能力。此外,尽管SSD的性能要差得多,但超分辨率技术的效率要高得多。对于SSD,对于RFSR和VDSR,除了60cm到30cm之外,所有分辨率的性能都有明显的提高。在使用SSD检测目标时,VDSR通常比RFSR稍好一些。对于SSD来说,480cm的提升在统计上是相当显著的,尽管这主要是由于本地图像的0.0。当目标的范围大于≈20像素时,性能会显著提高。这种趋势扩展到目标类,如个别目标类的性能曲线所示(参见补充资料)。

8、结论

在这篇论文中,我们对超分辨率技术对卫星图像中目标探测的效用进行了严格的研究。我们将两种超分辨率技术(VDSR和RFSR)与先进的目标检测方法相结合,并在一组不同环境中的超过250,000个标记目标的卫星图像数据集中搜索目标。为了在多个传感器分辨率下建立超分辨率效果,我们将这些图像的分辨率从30厘米降低到60、120、240和480厘米。我们使用SIMRDWN目标检测框架的theYOLT和SSD模型进行的基线测试表明,当分辨率从30厘米下降到120厘米时,目标检测性能下降了22 - 27%。SR技术作为预处理步骤的应用程序提供了一个提高目标检测性能最多决议(表7)。对于目标检测框架,最大的好处是实现在最高分辨率,图像super-resolving本机30厘米到15厘米收益率inmAP 13−36%改善。此外,在使用YOLT时,我们发现将图像从60厘米增强到15厘米可以显著提高30厘米图像( 13%)和60厘米图像( 20%)的性能。性能提升适用于所有级别,但最重要的是船只、大型飞机和公共汽车/卡车。同样,在YOLT中,在较粗分辨率(120cm到480cm)的SR中,性能几乎没有提高(mAP中的-0.02到 0.04变化)。当使用SSD时,30到15厘米的超级分辨率图像为小型车辆的识别提供了实质性的提高( 56%),但为其他类别提供了混合的结果(参见补充材料)。在较粗分辨率的SSD中,SR技术提供了更大的性能提升,但是大多数类的性能仍然比本地图像的YOLT差。总的来说,考虑到应用SR技术相对容易,本研究中观察到的总体改进是值得注意的,这表明SR可能是未来卫星图像目标检测应用的一个有价值的预处理步骤。

0 人点赞