Google Earth Engine-A Review
2020, ISPRS Journal Photogrammetry Remote Sensing
Google Earth Engine
Google Earth Engine,简称GEE,是一个基于云的地理空间处理平台,用于大规模环境监控和分析。免费使用的GEE平台可通过Explorer Web应用程序访问(1)PB的公共遥感图像和其他即用型产品;(2)使用Google的计算基础架构的高速并行处理和机器学习算法;(3)具有开发环境的应用程序编程接口(API)库,这些开发环境支持流行的编码语言,例如JavaScript和Python。这些核心功能共同使用户能够以强大的方式发现,分析和可视化地理空间大数据,而无需访问超级计算机或专业的编码专家。GEE的发展在遥感和地理空间数据科学领域引起了极大的热情和参与。然而,自GEE推出以来已有十年,但尚未仔细研究其对遥感和地理空间科学的影响。因此,需要对GEE进行系统的审查,以便为读者提供GEE的现状和总体趋势的“全景”。为此,决定对最近经过同行评审的GEE文章进行荟萃分析研究,重点关注几个功能,包括数据,传感器类型,研究区域,空间分辨率,应用,策略和分析方法。在2010年至2019年10月之间,总共349篇同行评审文章发表在146种不同期刊上。出版物和地理分布趋势显示了在区域和全球范围内环境分析中的广泛应用。90%的研究使用了遥感数据集,而10%的文章使用了现成的产品进行分析。具有中等空间分辨率的光学卫星图像,尤其是存档超过40年的Landsat数据,已得到广泛使用。线性回归和随机森林是用于卫星图像处理的最常用算法。在现成的产品中,有27%的研究使用归一化植被指数(NDVI)进行植被,作物,土地覆盖图和干旱监测。这项研究的结果证实,GEE在涉及地理大数据处理的全球挑战方面已经并将继续取得实质性进展。
01 引言
01
“大数据”一词最早出现在1990年代中期(Li et al.,2016),并在第二代万维网(Moed,2012)诞生一年后的2006年流行起来。一般而言,大数据是指庞大而复杂的数据集,难以使用传统的处理工具进行存储,管理和处理(Liu,2015)。重要的是,大数据的特征是称为3V的三个维度(Laney,2001)。首先是数据量,这是大数据的固有特征,其中包括来自各种来源的海量数据,这给存储和分析带来了挑战(Chi et al.,2016 ; Li et al.,2016)。其次是多样性,因为大数据通常以各种类型和格式出现,可能已经以某种方式组合到用户手中和/或可能出于特定目的需要由用户组合。因此,已经进行了巨大的努力来操纵具有复杂结构的不同数据类型。第三是速度,它处理了来自不同来源的前所未有的数据流速度(Li et al.,2016)。在过去的几年中,大数据分析已经引起了不同学科的关注,例如商业,健康科学,灾难管理和地球科学。
地理空间数据的增长改变了我们对地球的感知和互动。鉴于现有大量地理空间数据,其起源和格式的多样性以及日益增长的多样性和可访问性,可以将其定义为大数据(Laney,2001;Mahdianpari et al.,020)。地理大数据是从不同来源收集的,例如地面勘测,遥感,地理位置传感器和移动地图。在遥感大数据时,可以确定特殊的内部和外部特征。动态状态,多尺度和非线性特征是遥感大数据的内在特征(Liu,2015)。特别是,随着地球表面不断变化,遥感大数据反映了动态状态。多尺度特征与分辨率,时间间隔,光谱范围,角度和偏振有关(Liu,2015;Li et al.,2016)。此外,遥感大数据是非线性的,因为时间序列数据通常是非线性的且有噪声。另一方面,多源,高维和异构体特征是遥感大数据的外在特征(Liu,2015)。前两个特征背后的原因是分别存在不同的传感器和卫星数据的频谱/时间维度。异构体特征反映了可用遥感数据(例如栅格或矢量)的结构变化。这些特征带来了一些挑战,包括大数据的获取,存储,搜索,共享,传输,分析和可视化(Liu,2015)。为了克服这些困难,迫切需要新颖的方法。
为了解决地理大数据分析中存在的挑战,通常使用两个具有不同系统架构的平台:基于集群的高性能计算(HPC)系统和云平台(Ma et al.,2015)。在基于集群的系统中,巨大的计算问题是通过多台计算机的协作来完成的,从而呈现出一个单一的系统映像(Ma et al.,2015;Plaza and Chang,2007)。尽管这些基于集群的系统具有巨大的计算能力,但它们却遭受大量数据的加载和处理。云平台将超级计算基础架构虚拟化为实际的物理计算机。但是,与HPC系统相比,云平台提供了更多的可访问性,并且具有灵活的处理器,内存和磁盘大小,并且价格合理。尤其是,云计算提出了一种云存储,用于存储具有可访问的可扩展性的大数据(Ma et al.,2015)。此外,这些云计算系统将基础设施,平台,存储和软件作为点菜服务提供。例如,Amazon EC2提供基础架构即服务(Iaas),Microsoft Azure提供平台即服务(Paas),而Google Earth Engine发布软件即服务(Saas)(Ma et al.,2015)。
存在用于地理大数据处理的不同云计算源。于2006年推出的亚马逊网络服务(AWS)为用户构建了自己的虚拟数据中心提供按需付费的云计算平台(Amazon,2015)。通过访问最大的机器学习和人工智能(AI)服务套件,AWS环境将从中受益。AWS包含几种类型的卫星图像数据,例如Sentinel-1,Sentinel-2,Landsat 8和美国国家海洋与大气管理局高级(NOAA)高分辨率快速刷新(HRRR)模型。Google于2008年提供的Google Cloud Platform(GCP)是一项基于云的公共服务,可随时随地在Google管理的数据中心开发和托管Web应用程序。它提供了一系列服务,例如数据存储,数据分析,机器学习工具和企业地图服务(Krishnan & Gonzalez,2015)。
2010年,Microsoft创建了一个称为Azure的云计算平台,用于通过Microsoft管理的数据中心构建,测试,部署和管理应用程序和服务(Wilder,2012)。从遥感大数据的角度来看,Azure包含机器学习服务,从2013年至今的北美地区统一的Landsat-Sentinel-2产品以及从2000年以来的中分辨率成像光谱仪(MODIS)的卫星图像。推出了国际商业机器(IBM)云平台,以支持小型组织或大型企业的存储和联网(Lin et al.,2009)。IBM云计算通过公共,私有和混合云交付模型提供Paas,Iaas和Saas服务的组合。
最近,GEE一直是遥感大数据处理的关注焦点。GEE是一个基于云的平台,可使用Google的云在全球范围内并行处理地理空间数据(Gorelick et al.,2017)。GEE是一个免费的云平台,承载着超过40年的PB规模的遥感数据,例如Landsat,MODIS,美国国家海洋和大气管理局高级超高分辨率辐射计(NOAA AVHRR),Sentinel 1、2、3和5- P; 和高级陆地观测卫星(ALOS)数据。(Gorelick et al.,2017)。GEE还包括气候-天气和地球物理数据集。还提供其他现成的产品,例如增强植被指数(EVI)和归一化植被指数(NDVI)(Kumar & Mutanga,2018)。除了可以使用大量原始遥感图像存储库之外,用户还可以访问GEE数据目录中的预处理图像,云去除图像和镶嵌图像。附录A 表A1列出了GEE平台中可用的卫星和航空影像。
GEE平台利用Google的计算基础架构来实现并行地理空间数据处理,从而减少了计算时间。托管在GitHub上的具有针对JavaScript和Python的全功能开发环境的API还可简化对Earth Engine服务器的请求。此外,它提供了一个Git存储库,用于存储,共享和编写用户代码的脚本版本控制,从而导致更多的用户协作(Gorelick et al.,2017)。GEE的另一个功能是代码编辑器,可通过基于Web的集成开发环境(IDE)获得该代码编辑器,该编辑器旨在使用JavaScript API编写,开发和运行复杂脚本(Kumar & Mutanga,2018)。重要的是,GEE代码编辑器包含各种算法,可以简化专家和非专家的脚本编写。提供了几种软件包,例如机器学习,图像处理,图像收集,几何特征,化简器,图表和专用算法。表1全面列出了不同GEE软件包的功能。
表1 Google Earth Engine云平台算法和功能概要
GEE还提供了其他与用户交互的方式。资源管理器是一个简单的Web应用程序,用于数据目录浏览,可视化和基本分析,允许用户运行简单的分析。此外,timelapse是具有缩放功能的视频工具,可以跟踪,测量和可视化过去35年(1984-2018年)地球表面的变化。用户还可以构建自己的游戏中时光倒流数据集。Earth Engine应用程序提供对客户端用户界面API的访问权限,以供热衷于应用程序的开发人员构建和发布自己的应用程序。Earth Engine应用程序是动态的,可访问的用户界面,可广泛用于专家和非专家的GEE分析。例如LandTrendr(Kennedy et al., 2018),拆分小组,Mozaic编辑,全球人口探索者,全球森林变化探索者(Hansen et al.,2013)和链接地图。
如前所述,GEE处理遥感大数据的能力已导致研究人员将这项技术用于各种环境应用(表2)。GEE内的地理空间数据集的归档及其编码,共享,并行处理和可视化功能使它成为所有现有云平台中前所未有的竞争者。尽管已经在地理空间大数据分析中进行了一些调查研究,但它们主要集中于地理大数据的特征,现有工具和应用(Chi et al.,2016;Li et al.,2016;Liu,2015)。在遥感方面,库马尔和穆坦加(2018)提出了关于GEE用法的第一篇评论。他们根据申请,使用的数据,作者的附属机构和研究区域进行了审查;然而,缺乏对与不同应用相关联的传感器类型,方法,特征,区域范围和分辨率的全面研究。因此,本文的目的是对出版物进行全面的调查,以找出哪些数据集和算法对于大规模的环境监测更成功,更可靠,并产生更准确的结果。通过荟萃分析,我们对出版物进行了识别,分类和分析。
表2 基于GEE应用程序的环境研究
2
材料和方法
02
TWO
ISI Web of Science和Google Scholar数据库的使用截止日期为2019年10月13日,涉及使用关键词“ Google Earth Engine”的推荐期刊文章的时间限制为2010年(GEE推出)至2019年。遵循了系统评价和元分析的首选报告项目方法(PRISMA;Moher et al.,2009),以选择要纳入我们分析的文章(图1)。在2,391笔搜索的初始结果中,有349笔符合条件,可以包含以下功能:发布日期,第一作者,期刊名称,引文,引文,文章类型,应用程序,传感器类型,使用的数据集,单次/多次时间,研究区域,区域范围,日期,分辨率,基于像素/基于对象,特征/波段/通道,方法和准确性。我们从分析中排除了那些引用GEE作为次要来源并且不包含上面列出的所有描述性功能的文章。
图1 PRISMA流程图,用于手稿选择
3
结果
共有349条符合第二部分概述的条件。根据对在其应用程序中使用GEE的期刊文章的评论,提取了几类数据。本节详细介绍了荟萃分析结果。首先,介绍了文章的一般特征,包括其发表的期刊,使用GEE的学科,所研究的区域(包括程度)和研究主题。使用遥感数据的研究可进一步细分为使用机器学习(即分类和回归)的研究和使用其他图像处理技术的研究。最后,详细评估了使用机器学习技术的研究的准确性。
3.1 使用GEE进行研究的一般特征
图2指出了使用PRISMA审阅的349篇文章中的出版趋势和数据类型。数据集分为四类,即光学,合成孔径雷达(SAR),光学SAR图像和即用型数据产品。从2010年到2012年,没有发现同行评审的期刊文章,图2展示了自2013年以来GEE的普及率稳步增长的趋势。在对过去7年的出版物进行深入调查之后,我们发现早期仅使用了光学数据。随着Sentinel-1的问世,SAR的使用和光学SAR数据集成的增长趋势始于2017年左右。自2016年以来,已使用了现成的数据产品,例如植被指数,土地覆盖图,数字高程模型和土壤湿度,但仍只是已发表研究中使用的数据的一小部分。
图2 使用Google Earth Engine平台的审阅期刊的发表频率以及所使用的主要数据类型,结果基于2010-2019年期间的数据库搜索(日期),在2013年之前,找不到符合我们标准的文章。
总体而言,这里审查的论文发表在146种不同的期刊上,表明在其研究中使用GEE的学科广泛。在这些期刊中,有124种期刊仅使用GEE发表了一篇论文,其应用范围从气候变化监测到考古学。图3仅代表发表了五篇以上GEE文章的期刊。可以看出,遥感,环境遥感(RSE)和国际应用地球观测与地理信息杂志(JAG)是发表有关GEE应用的同行评审论文的前三名期刊。
图3 每个期刊发表的GEE论文数量
如前所述,本研究中包含的349篇论文在广泛的遥感应用中使用了GEE,可以将GEE分为11个不同的组。图4表示最多的论文是作物制图研究,包括植被,稻田和农业监测(74)。其次是对水的大量研究,例如地表水,湖泊,河流,雪,冰河湖,藻华地图和浅水测深法(62)。专注于土地利用/土地覆盖和森林制图的研究分别有56和30篇文章。共有28篇文章重点介绍了灾害类别中的火灾探测,洪水和干旱监测。在20篇文章中研究了与气候变化相关的应用,例如蒸散量估算,大气光谱特征检索,土地和地表水温度,反照率趋势和热岛监测。城市制图研究是15篇研究论文的主题。其他主题涉及土壤水分和碳固存(14),湿地和红树林(13)以及数据处理应用程序,包括辐射校正,镶嵌图像生成和云探测(12)。最后,总共有25项在各种应用中使用GEE的研究被归类为“其他”类别,包括考古,地雷和生境制图,地理空间监测和核不扩散。
图4 GEE应用程序按学科分类
研究区域及其对应区域的全球分布(以 )分别在图5,图6中示出。GEE出版物报告了来自所有7大洲104个国家的分析,如图5所示。如图所示,大多数研究在美国进行(77项;其中3项针对阿拉斯加的研究)。中国有50篇文章,也代表了大量的研究。在大陆范围内,最多的研究数量分别属于亚洲,北美和非洲。但是,南美,欧洲,澳大利亚和南极洲是许多研究的主题。
图5 GEE研究的全球分布
图6 GEE大陆研究区累计面积km2
图6显示了各大洲的研究累计范围)。如图所示,北美地区覆盖面积最大,而使用GEE仅对澳大利亚的有限地区进行了研究。重要的是,这两个数字并未包括在全球范围内进行的总共36项研究。
由于使用不同GEE功能的研究范围广泛,因此根据数据将文章分为两大类来进行荟萃分析:遥感数据和即用型产品(例如NDVI和土地覆盖)。利用机器学习技术对利用遥感数据的研究进行了进一步分类,包括分类,回归和“其他”类,该类包括诸如时间序列,特征提取,图像合成,视觉解释和图像预处理等方法技术。图7展示了利用GEE的文章的分类以及本综述中的研究数量。
图7 利用GEE的文章分类
3.2 GEE中的卫星图像
在这篇评论中考虑的349篇文章中,有312篇在GEE中处理了卫星图像。其中,265种使用了机器学习技术,而47种使用了其他方法。那些使用机器学习技术的人进一步分为图像分类(n = 201)和回归(n = 64)。以下小节介绍了这些研究的趋势以及使用机器学习技术的研究准确性的详细分析。
3.2.1 传感器类型和GEE
在遥感数据方面,有312项研究应用了GEE数据目录中可用的卫星和/或航空影像。至少5个研究中包括的传感器类型如图8所示。如图所示,诸如Landsat和MODIS的光学图像是最常用的数据源。此外,在所有Landsat任务中,Landsat-8是最常用的。Sentinel-2和Sentinel-1也用于77个研究中。
图8 传感器类型和研究数量
许多研究结合了多个数据集。图9指出了GEE文章中使用的前十颗卫星的交点。正如预期的那样,Landsat任务首先进行了255个研究,其次是MODIS,Sentinel-2和Sentinel-1,分别进行了55、44和33个研究。在18个研究中,Landsat和MODIS的结合显示了这两颗卫星的受欢迎程度,其次是Landsat-Sentinel-2(n = 13),Landsat-Sentinel-1(n = 7),Sentinel-1-Sentinel-2(n = 6)和MODIS-Sentinel-1(n = 1)。一项研究调查了四颗卫星的数据组合。
图9 GEE研究中使用的卫星图像组合
3.2.2 分类和GEE
如图7所示,本评价中包括的大多数研究都使用分类方法来处理GEE中的卫星图像。因此,以下各小节通过考虑不同的参数(包括空间分辨率,分类器类型/方法,数据类型,感官类型和分类策略)来评估这些技术的总体准确性。
3.2.2.1 GEE中处理的卫星图像的空间分辨率
为了研究空间分辨率对分类性能的影响,创建了箱线图(图10)。不出所料,以高(<4m),中(4m至30m)和低(> 30m)空间分辨率收集的数据分别实现了总体准确度的最高,中间和最低中值。大多数研究(n = 200)都使用中分辨率卫星图像(包括Landsat,Sentinel-1和Sentinel-2的图像)进行分析。如图所示,与高分辨率和低分辨率传感器的数据相比,中分辨率数据表现出最高的最大值,而其分布范围最小且最小值最低,则显示的结果不一致。专注于高空间分辨率的研究最不常见(n = 8),尽管此类数据显示出更加一致的结果,因为与其他数据相比,它获得了更紧凑的形状。在75项研究中报告了低空间分辨率图像对于不同应用的有用性。然而,应该注意的是,空间分辨率并不是影响遥感图像分类整体精度的唯一参数。其他因素,例如数据类型,类的性质和分类方法,也很重要,应予以考虑。
图10 总体精度与不同的空间分辨率
3.2.2.2 GEE分类方法及其总体准确性
图11显示了GEE平台中采用的几种方法的分类精度。如图所示,所有分类器的分类精度中位数均大于85%。图11说明了决策树(DT)分类器,然后是分类和回归树(CART)方法,实现了最高的中位数总体准确性。就总体精度的变化而言,DT比CART优越(请参见图11中方框图的长度)),但相对于后者,前者的使用频率较低。与其他分类器相比,K最近邻(KNN)方法显示出总体准确性的变化最小,KNN的四分位数间距(IQR)明显小于其他方法。支持向量机(SVM)和朴素贝叶斯分类器在总体精度方面显示出相对相等的强度。但是,与SVM相比,朴素贝叶斯的方差和IQR较窄。如图所示,随机森林(RF)分类方法是最常用的方法(n = 97),与其他分类器相比,它显示出最小和最大的总体准确性。使用RF分类器获得的广泛的总体准确性表明,其他参数(例如提取特征的数量)也是影响分类性能的因素。尽管与高斯混合模型(GMM)和人工神经网络(ANN)分类器相比,使用最小距离(MD)方法获得的中值总体准确度中等,但是。从范围的角度来看,GMM分类器具有最大的IQR范围。总体而言,GMM分类器的性能与其他模型类型没有太大差异。值得注意的是,最低的总体准确度中位数对应于ANN,但是使用此方法获得的准确度的50%仍大于87%。GMM分类器的性能与其他模型类型没有太大差异。值得注意的是,最低的总体准确度中位数对应于ANN,但是使用此方法获得的准确度的50%仍大于87%。GMM分类器的性能与其他模型类型没有太大差异。值得注意的是,最低的总体准确度中位数对应于ANN,但是使用此方法获得的准确度的50%仍大于87%。
图11 不同分类方法的总体准确性
3.2.2.3 数据类型和整体准确性
为了确定不同数据类型对整体准确性的影响,该参数的箱形图如图12所示。如图所示,所有数据类型的总体准确度中位数都超过85%。共有151篇论文利用光学成像进行研究。尽管光学数据的总体总体准确度约为88%,但最小值和最大值之间的范围从70%扩展到99%(图12)。在广泛的应用程序中使用这些数据的普遍性使结果不太一致,其准确性在很大程度上取决于分类器的类型,研究区域和应用程序。21项研究中的光学和雷达数据集成显示出比具有较小IQR范围的光学数据更好的结果。九项研究仅使用雷达数据,其结果最好,中位数约为96%,差异很小。
图12 总体准确性与数据类型
3.2.2.4 总体精度与传感器类型
图13中的箱线图表示6种传感器类型的总体精度。尽管三项研究在其出版物中使用了无人飞行器(UAV)数据,但分类方法是在GEE代码编辑器中实现的。空间分辨率小于5 m的无人飞行器显示出最佳中位数,IQR范围变化最小,结果更可靠(见图13)。雷达数据的使用(在第3.2.2.3节中发现可产生最准确的分类使用空间分辨率为10 m的Sentinel-1获得的)也导致较高的总体分类精度。Sentinel-2和Landsat的准确度范围相似,这表明它们的结果与预期一致。Landsat已在GEE论文中广泛使用,并且使用此传感器类型的广泛学科可能在很大程度上影响了结果的范围。最后,MODIS具有此处考虑的传感器类型的低空间分辨率,并且预期具有最低的中值总体精度。
图13 总体精度与传感器类型
研究人员已经利用了遥感技术的最新进展以及高分辨率卫星图像的日益普及。高分辨率图像可能提供更准确的分类和分析,这将大大提高总体分类准确性(图10)。尽管GEE不提供高分辨率(<4m)卫星图像,但本评价中考虑的研究中有4%上传了高分辨率图像并在GEE中进行了后续分析。表3提供了GEE中不存在但在这些研究中使用的卫星数据集。其中一些研究还将Landsat数据集与这些高分辨率图像结合在一起。
表3 GEE出版物中在GEE数据目录中不存在的卫星图像列表
3.2.2.5 整体精度和不同图像处理策略的比较
图14示出了用于遥感数据分类的四种类型的实施策略。大多数论文选择了基于像素而非基于对象的方法进行分类。基于对象的箱形图的IQR范围以及最小和最大总体精度之间的差异小于基于像素的箱形图的IQR范围(图14)。但是,基于像素的箱线图的总体精度范围从70%到99%不等,其中位数低于90%。尽管在6个研究中使用的基于对象的方法产生了更准确的总体分类,但这可能反映了少数研究使用了更复杂的基于对象的方法,而较大范围的基于像素的方法可能反映了其在166中的使用文件。
图14 不同遥感策略的整体准确性
从时间的角度来看,有163篇论文使用了时间序列,而只有7篇使用单日期数据集的论文已经发表。如图14所示,箱形图的范围几乎没有差异。尽管单日箱线图的中值高于多时线图,但时间序列数据集的方差和IQR范围变化较小。因此,对多时间数据集的研究显示出更加一致的结果。
3.2.3 回归与GEE
在遥感数据分析方面,有64项研究使用回归方法进行分析。图15显示了不同类型的回归类型和研究数量。
图15 GEE中已使用的回归类型
图16示出了表示按传感器划分的基于回归的不同研究的R2的箱线图类型。与其他传感器相比,Sentinel-1显示最高中值和最低IQR范围。这意味着使用回归方法分析雷达数据可提供更多相关和一致的结果。Landsat的范围与MODIS的范围类似;但是,使用最多的数据集Landsat提供的中位数最低,其IQR范围较小。因此,Landsat比MODIS产生了更多的相关结果。
图16 的分布适用于GEE中使用的不同数据类型
3.2.4 GEE中的其他卫星图像处理方法
共有47篇论文被归类为“其他”,因为他们在分析中使用了不同的方法来代替机器学习。其他课程包括以下技术:时间序列分析,特征提取,图像预处理,图像合成和视觉解释。图像拼接,云和错误检测已合并到图像预处理类别中。
3.3 GEE中的即用型产品
如前所述,GEE提供了各种类型的从卫星图像获得的即用型产品。这篇综述中共有37篇论文使用了这些现成的产品。这些文章分为6类:栖息地制图,GIS农业用地适宜性,灾害管理,社会经济,可持续发展和“其他”。“其他”类别包括地形建模,疾病监控和图像检索(参见图7)。最常用的数据集如图17所示。在GEE数据目录中所有可用的现成产品中,最常用的是植被指数,土地覆盖,汉森全球森林变化和数字高程模型(DEM)(Hansen et al.,2013年,Kong et al.,2019,Koskinen et al.,2019,Xiong et al.,2017)。
图17 GEE中应用的即用型产品概要
4
讨论区
4.1 GEE功能和大数据分析
本文从荟萃分析的角度对使用GEE的文章进行了全面的回顾。随着出版趋势的发展,可以说随着时间的流逝,GEE的受欢迎程度增加了,利用该地理空间分析平台的发表论文的数量也有所增加。特别是自2017年以来已发表了大量研究。近年来,卫星图像技术的进步增加了对遥感和地理空间应用的需求,因此GEE稳步增长。GEE是一个云计算平台,可为免费的卫星图像提供一个Git存储库,用于存储,共享和地理大数据处理设施(Gorelick et al.,2017)。
由于GEE具有处理大数据分析挑战的能力,例如以前所未有的速度及时处理大量数据,因此许多研究已经在本地和全球范围的各种应用中使用遥感数据进行了地理空间分析。如前所述,遥感大数据分析具有内在和外在的特征。回顾349项使用GEE作为地理大数据分析工具的研究的结果,发现使用多时相数据监测所需现象的研究数量是单日期的24倍以上,因此,重点放在了地理大数据的内在特征。此外,大量研究使用了卫星,航空和地理空间数据集的组合,表明了大数据的多尺度特征。关于外部特性,GEE提供具有不同空间,光谱和时间分辨率的即用型产品和遥感影像。因此,GEE拓宽了分析和处理地理空间和遥感大数据的潜力。
如前所述,大数据涉及各种问题,例如捕获数据,搜索,共享,存储,传输,可视化,查询和更新信息。关于遥感和地理空间数据分析,这一点特别令人关注。例如,Landsat-8的卷(仅用于一个场景)的压缩文件大小为1 GB,未压缩文件大小为2 GB。随着GEE,NASA Earth Exchange,AWS和Microsoft Azure等云平台的出现,开启了大规模地理空间分析的新机遇(Hird et al.,2017年))。因此,选择具有支持和处理那些数据集能力的合适的云平台至关重要。由于每个云计算平台都有自己的优缺点,因此选择合适的平台在很大程度上取决于应用程序。总体而言,对于遥感研究而言,卫星数据和机器学习算法的可访问性可能会大大影响云计算平台的使用。为了比较排名前三的云平台GEE,AWS和Azure,开放式访问卫星数据的可用性以及机器学习技术和图像处理工具使GEE成为最受欢迎的平台。例如,自1972年以来,GEE托管了Landsat数据的全面存档,而AWS和Azure仅提供Landsat 8数据集。Sentinel-2数据由所有人提供,而Sentinel-1数据仅在GEE和AWS中可用。结果,尽管AWS和Azure平台早于GEE,但大多数研究人员倾向于使用GEE来访问广泛的卫星图像档案和地理空间数据集。这是因为GEE专为处理和分析地理空间数据集而设计,与AWS和Azure相比,使其更适合于遥感应用程序。GEE的研究人员可以访问大量公开可用的数据,包括具有数PB数据存储在云中的遥感存档。此外,研究人员可以选择上传和分析自己的图像。这项调查表明,有10%的研究使用用户提供的图像,现成的产品和GEE代码编辑器API进行了分析。相对于Azure和AWS,GEE的一大优势是平台的价格。特别是,GEE是一个免费的云平台,而AWS和Azure则按照按时付费服务,分别按每小时和每分钟收费。但是,AWS和Azure均提供免费服务,这些服务属于一年免费的类别,并且始终免费。处理时间是三个平台之间的另一个区别。当用户拥有适用于AWS和Azure的付费帐户时,他们可以估计处理时间,而在GEE中,处理时间取决于服务器,无法对其进行控制。AWS和Azure均提供免费层服务,这些服务属于一年免费类,并且始终免费。处理时间是三个平台之间的另一个区别。当用户拥有适用于AWS和Azure的付费帐户时,他们可以估计处理时间,而在GEE中,处理时间取决于服务器,无法对其进行控制。AWS和Azure均提供免费服务,这些服务属于一年免费的类别,并且始终免费。处理时间是三个平台之间的另一个区别。当用户拥有适用于AWS和Azure的付费帐户时,他们可以估计处理时间,而在GEE中,处理时间取决于服务器,无法对其进行控制。
数据可用性以及计算基础结构和编程功能(例如JavaScript代码编辑器和API参考文档)以及基于Git的脚本管理器,激发了编程技能低的专业人士和非专业人士都对其应用程序考虑GEE。除了脚本和代码共享工具外,GEE还提供了一种基于并行化进程的计算引擎,并在Google数据中心的许多CPU上进行了分析。GEE的独特特征是前所未有的速度,可减少处理时间,并减少了PB级遥感数据,算法,高级栅格处理工具和密集计算基础设施对在线平台的可访问性。
在全球分布方面,经过同行评审的出版物表明,GEE在向公众提供对地理空间数据的平等访问方面已经取得了成功。在各大洲,特别是在欠发达国家中,研究领域广泛,着重强调了GEE的潜力。例如,允许用户上传自己的数据,应用预处理的图像并利用数据存储功能,为研究人员利用GEE进行全球研究创造了一条潜在途径(Kumar & Mutanga,2018)。
4.2 GEE和数据类型
正如图12举例说明,有150多个研究使用了光学图像,这对于用户来说更易于访问和熟悉。很大程度上要归功于Landsat影像的40年免费存档,光学遥感数据仍然是最常用的数据源。GEE数据目录提供了1972年至今的光学卫星图像,使研究人员能够进行地球监测研究。此外,GEE用户的广泛应用表明,光学图像对于非远程传感专家来说更易于处理和解释。这就是为什么GEE在广泛的科学领域中遍及全球的原因之一。尽管仅对SAR数据进行了评估,但这里仅审查了九项研究,Mahdianpari et al.,2017a ; McNairn et al.,2009 ; Mohammadimanesh et al.,2018c)。
例如,SAR和光学卫星的整合使研究人员能够克服有关云影的困难和问题(Stroppiana et al.,2015)。云层和低反照率表面(例如红树林和湿地)的影响,特别是在热带地区,云层持续覆盖以及森林或森林被大火烧毁的地区,会极大地影响光学图像的性能(Mahdianpari et al.,2017b,McNairn et al.,2009;Mohammadimanesh et al.,2018a)。因此,光学和SAR数据的整合可以提高分类准确性,并提供更多信息来检测地球表面的变化(Mohammadimanesh et al.,2019a)。因此,本评论中有21篇文章使用了光学数据集(Landsat,MODIS,Sentinel-2)与SAR数据的集成,特别是在湿地和森林监测中的应用(B. Chen et al., 2017)。
SAR传感器可以获取数据,而不受天气和光照条件的影响(Mahdianpari et al.,2019b)。此外,波长和偏振的组合提供了有关地球表面的更多有用信息(Mahdianpari et al.,2019a;McNairn et al.,2004;Mohammadimanesh et al.,2018d)。如图12所示,SAR数据比使用光学和光学/ SAR数据的研究具有更高的分类精度。但是,这里仅回顾了九项研究应用了SAR图像,这可能是因为散斑噪声会降低这些图像的有效空间分辨率(Choi & Jeong,2019)。另外,非远程传感专家很难对SAR图像进行处理和解释。SAR信号对植被的几何结构(例如,叶和茎),冠层的介电特性和土壤特性敏感,但是这里仅审查的两项研究使用SAR图像绘制作物和森林的地图。这可能是因为几个研究人员强调了L波段信号在农作物分类中的性能(Lee et al.,2001;Lee & Pottier,2009;Silva et al.,2009),并且GEE档案中不提供L波段SAR。此处回顾的八项研究表明,SAR图像适合于水稻作图,并且可以在整个生长期提供多时相图像,并消除雨天环境中的云层。多项研究还集中在使用C波段SAR图像进行海岸线检测和洪水监测(Uddin et al.,2019 ; Wong et al.,2019)。此外,Jin et al.(2007)报道,与较长波长(例如L或P波段)相比,较短波长(例如C或X波段)的SAR图像在提取海岸线时产生更准确的结果(Hagenaars et al.,2018;Kim et al., 2007,Marghany et al.,2011)。
4.3 GEE和传感器类型
在这篇评论文章中,Landsat是评论文章中使用的主要传感器(请参见图8,图9,图13)。Landsat被认为是重要的遥感数据源,因为它提供了地球表面的连续图像(Wulder et al.,2019)。Landsat 9卫星将于2020年发射,目的是继续执行Landsat计划在监测地球资源方面的关键作用。可以访问GEE中40多年的Landsat数据记录,可以在区域和全球范围内进行长期的土地覆盖变化研究(Liu et al.,2020)。本文回顾的研究表明,Landsat可用于多种应用,包括植被,森林,农作物,土地覆盖/土地利用变化,火灾,城市,湖泊,河流,水面,湿地和气候变化监测。
在这里回顾的研究中(n = 33),Sentinel-1是卫星图像的另一个流行来源,并且取得了非常准确的分类结果。Sentinel-1由两颗卫星组成,分别由2014年和2016年发射的Sentinel-1A和Sentinel 1-B组成,空间分辨率为10 m,重访时间为6天(Torres et al.,2012)。它配备了双极化C波段SAR传感器,可以在全天候,白天和夜晚的情况下提供数据。Sentinel-1数据已用于涉及多个主题和学科的33项研究中(图8),包括海洋监测,海岸线检测以及测绘土地覆盖,气候变化,稻田和灾害(如洪水监测)。
Sentinel-2任务包括两颗卫星组成的星座,即Sentinel-2A(于2015年发射)和Sentinel-2B(于2017年发射),它们提供空间分辨率为10 m,20 m和60 m的光学图像,以及大约5天的时间分辨率(Drusch et al.,2012 ; Mahdianpari et al.,2019c)。这项审查确定了44项使用这种中等分辨率的免费影像进行的研究,这些影像用于与农业相关的应用中,例如作物和植被监测,沿海地区观测以及土地覆盖分类。
中分辨率成像光谱仪(MODIS)于1999年在Terra卫星上发射,并在2002年在Aqua卫星上发射(Engel-Cox et al.,2004)。研究人员可以在1天的重访时间访问36个光谱带和三种变化的空间分辨率(250 m,500 m和1 km)的GEE中的MODIS数据。MODIS影像已应用于此处审查的55项研究中。即使MODIS的空间分辨率很低,它的高时间分辨率也使研究人员可以监视短期和长期的全球环境变化(动力学)。使用GEE平台进行此类应用的示例包括积雪,海岸线,洪水,火灾,气候变化,植被时间序列和蒸散监测。
多项研究强调了多时相卫星影像在遥感应用中的重要性(Clement et al.,2018 ; McNairn and Shang,2016 ; Tomer et al.,2015)。例如,用多时相图像绘制农作物图,为研究人员提供了在整个生长季节有效追踪农作物物候的机会。因此,时间序列数据可提供有关研究区域的更多信息,并提供更准确的分类和长期分析。在报告的研究中,有96%(n = 163)使用了GEE多时相卫星图像,与单日数据相比,它们产生了更一致的总体准确度,而在单篇文章中仅使用了4%(n = 7)。最后,在98%的研究中使用了基于像素的分析,而只有2%的论文使用了基于对象的方法进行分析。这是因为用户无法访问GEE平台中的基于对象的分析功能(Kumar & Mutanga,2018)。
4.4 遥感数据分析
4.4.1 机器学习技术
机器学习是人工智能的一个子集,它处理算法设计以训练模型以做出决策或预测(Huang & Jensen,1997)。机器学习方法可分为两大类:参数化和非参数化(Holloway & Mengersen,2018)。参数化机器学习算法使用固定数量的参数或假设。但是,它们与训练样本的数量无关。尽管参数算法速度更快,但是有关数据的假设会极大地影响和限制学习过程。另一方面,非参数算法使用灵活的参数数量。随着数据量的增加,非参数方法可能变得更慢,更复杂。但是,他们对数据分布的假设较少。机器学习方法已被有效地用于遥感数据处理(Schulz et al.,2018)。分类,聚类,回归和降维是机器学习算法的四个主要分析类别(Holloway & Mengersen,2018)。
4.4.1.1 分类
DT,CART,KNN,非线性SVM,RF和ANN是非参数算法,因为参数的数量随训练集的大小而增长。在这篇综述中,有186个研究使用了非参数模型,因为它们更加灵活,并且可以在没有先验知识的情况下处理大量数据。此外,由于遥感数据集的固有特性,它们可能不是正态分布的,非参数算法是无假设的模型(Holloway & Mengersen,2018)。在审查的GEE研究中,研究人员倾向于使用非参数算法。当组合来自可能具有不同或未知分布的多个源的嘈杂数据时,这提供了特别的优势。
在分类方法中,DT分类器的总体准确度最高,其中50%的结果超过了94%的结果(见图11)。DT基于输入变量之间的层次结构关联来工作,并提供一组易于解释的规则。它也不需要大量的设计或培训,并且计算效率高。一些事实可能会限制其使用:它使用平行于特征轴的超平面分类边界,这在混合像素的情况下会带来挑战。当输出中的各个值相关时,也会变得很复杂。因此,该监督算法仅用于此处审查的12个研究中。
CART算法是第二流行的分类方法。由于CART不仅解决了遥感应用中的广泛问题,而且还解决了工程,农业和其他领域中的广泛问题,因此CART变得更为流行。(Steinberg & Colla,2009)。大量研究表明,CART在其应用中表现良好(Bittencourt & Clarke,2003)。使用CART的最大优势之一是它将CART复杂的问题分解为更简单的子问题(Bittencourt & Clarke,2003)。因此,本评价中有26个研究利用了CART分类器。
KNN分类只需很少的假设和参数即可调整,易于实现,并且在搜索空间方面也很健壮,因此适用于非线性可分离数据集(Li & Cheng,2009)。而且,它可以用于分类,回归和搜索应用。该算法的主要缺点是它对噪声和不平衡数据敏感,从而导致有意义的距离数变小(Blanzieri & Melgani,2008)。
在这项调查中,有21个研究利用了SVM分类器。尽管SVM的整体准确性的中位数约为89%,但该方法的优点和局限性可以解释结果的高差异。这里讨论了SVM的三个重要特征。首先,SVM方法将输入数据映射到更高的特征空间,这会增加数据之间的可分离性模式。其次,使用凸成本函数并处理二次问题使SVM能够找到全局最小值并连续获得最优解。最后,在遥感数据和地面参考问题的情况下,支持向量机在有限的训练数据上也能很好地工作(Mountrakis et al.,2011)。对特征选择很敏感,并调整诸如内核功能和宽度之类的几个参数是SVM最具挑战性的方面。此外,标签错误的像素或离群值会极大地影响分类的性能,因为SVM无法处理嘈杂的数据(Holloway & Mengersen,2018;Mountrakis et al.,2011)。
在GEE平台中,RF是最常用的分类方法,此处对97项研究进行了综述(Hu et al.,2018 ; Teluguntla et al.,2018 ; Xie et al.,2019)。有几个优势可能导致这种程度的普及。RF算法健壮,易于训练,对训练数据的质量较不敏感,并且与其他非参数分类器相比,需要调整的参数更少(Belgiu & Drăguţ,2016; Mahdianpari et al.,2017c ; Mohammadimanesh et al.,2018b)。尽管复杂度会随着树和训练数据的数量而增加,但是这种方法可以显着提高分类准确性(Mahdianpari et al.,2018a)。Belgiu & Drăguţ(2016)报告说,RF方法提高了分类准确性,特别是对于高维输入数据(例如高光谱图像)。在某些情况下,少量的训练数据会导致分类错误,这解释了图11中 RF箱图的较大差异。
人工神经网络是一种数据驱动的自适应技术,可以有效地管理嘈杂的数据。在该调查中,有6项研究使用的ANN分类器的总体准确度中位数最低(请参见图11)。最少数量的研究使用了ANN,因为GEE内置功能不支持ANN,并且它遭受着高计算速度,耗时的训练,选择网络体系结构类型的困难(Bischof et al.,1992),以及训练中局部最小的问题(Benediktsson et al.,1993)。由于GEE不包含任何基于神经网络的模型,因此用户可以使用GEE的数据在Google Colab中训练和运行神经网络,甚至深度神经网络(DNN)算法。
GMM,MD和朴素贝叶斯(NaïveBayes)是一些参数化机器学习方法的示例,几篇文章报道了这些方法是通过GEE代码编辑器应用的。这些算法的结果高度依赖于初始假设。在假设正确的条件下,该算法可能效果很好,但反之亦然。朴素贝叶斯(NaïveBayes)具有高度的可扩展性,并且需要的培训数据更少。因此,朴素贝叶斯在参数方法中表现更好,总体准确度更高(Voight et al.,2019)。
聚类是一种无监督的学习方法,该方法尝试根据输入变量的相似性标准将对象组合为聚类,而无需训练数据(Holloway & Mengersen, 2018)。尽管聚类算法不需要训练数据即可实施,但是缺少用于评估结果的地面真实数据可能会迫使科学家不得不使用分类方法。由于聚类评估的问题,在大多数非监督算法中,应在实施之前确定聚类的数量。因此,这里仅审查的两项研究使用K均值无监督分类进行遥感数据分析。因为K-means速度快且计算量少,所以它是最著名的聚类算法之一。但是,它也从初始随机聚类中心开始,因此在算法的不同运行中可能会产生不同的聚类结果。因此,结果可能无法重复且缺乏一致性(Chen et al.,2005)。
4.4.1.2 回归
回归是一种监督式机器学习方法,旨在基于一组协变量来估计或预测输出变量(Holloway & Mengersen,2018)。类似于分类,回归基于输入变量训练模型,但是输出变量是数字的(连续的)。线性模型(例如线性回归和逻辑回归)是参数方法的常见示例。虽然线性回归不被认为是一种机器学习技术,但为了保持一致性,此处将它们归类在回归部分下。
这篇评论的结果发现,在63个以回归为重点的研究中,有55个利用线性回归及其扩展,例如线性最小二乘和线性多元回归(MLR)方法。线性回归用于48篇论文,因为它易于实施,特别是对于涉及大面积研究的论文。线性回归的另一个积极方面是它的快速计算速度,这是地理大数据分析中的重要因素。Forkuor等。(2017)报告说,MLR模型在预测过程中会处理因变量和自变量之间的非线性关系(Forkuor et al.,2017)。结果,这里仅回顾了五项研究使用了MLR方法。八项研究利用GEE中的随机森林回归(RFR)。该算法的运行时间和复杂性是RFR算法的主要缺点(Forkuor et al.,2017)。尽管RFR能够抵抗非线性,并且不需要假设目标预测变量的概率分布,但它需要调整某些参数,例如树的数量和随机选择的预测变量。
4.4.2 其他GEE图像处理功能
GEE拥有几种内置的图像处理功能,用户可以将其应用于遥感数据分析。在这方面,时间序列分析,特征提取,图像颜色合成视觉解释和图像预处理技术已应用于卫星图像而非机器学习方法。
地球表面正在以前所未有的速度变化,因此卫星图像的时间序列分析对于跟踪趋势,变化以及检测模式以开发模型和预测变化至关重要(de Oliveira et al.,2016)。GEE在19项研究中用于时间序列分析,因为它支持高分辨率图像或全球范围内应用程序的大量数据。此外,GEE提供了时间序列图,允许用户跟踪和评估地球表面特征的变化。为了进行时间序列分析,需要具有大致相同时间间隔的图像序列。借助综合档案(例如Landsat影像),GEE是监测地球表面变化的宝贵影像资源。这项调查得出的结论是,在海岸线检测以及沿海和水资源监控方面的大多数研究都使用了时间序列分析(Fang et al.,2019 ; Nguyen et al.,2019 ; Wang et al.,2018)。此外,一些研究已经进行了跟踪毁林地区,土地利用变化和温度在气候变化中的作用(Hu et al.,2018,Jamei et al.,2019,Workie & Debella,2018)。
多项研究利用了植被,干旱和土地覆盖变化等不同领域的特征提取和谱带比率技术(Ravanelli et al.,2018 ; Rembold et al.,2019 ; Saah et al.,2019 ; Scherler et al.,2018,Sidhu et al.,2018;Waller et al.,2018;Weissmann et al.,2017)。特征提取是一种图像处理技术,使用图像光谱和几何特征(例如颜色,形状和上下文)来识别图像区域之间的相互关系(Momm & Easson,2011)。特征提取的过程很重要,因为它可以减少处理所需的资源而不会丢失重要信息。
如前所述,对于精度要求较低或适用于小范围研究的专家和非遥感专家而言,卫星图像的视觉解释都是分析的类型。有八篇论文在土地利用/土地覆盖监测中的应用使用了这种方法。在这种情况下,以彩色合成图像显示遥感图像,以从图像中提取有意义的信息(Sader & Winne,1992)。视觉解释的准确结果需要具有专业知识,需要研究的地理区域以及接受遥感培训的口译员。
借助GEE图像处理工具和各种分辨率的遥感图像,用户已将GEE用于图像预处理技术,例如图像镶嵌,云计算和错误检测。GEE平台可提供原始的原始图像,但是应用光学数据时需要面对的主要挑战通常是云层覆盖(Mateo-García et al.,2017)。用户可以访问可用于云检测的辅助层(例如Landsat Collection 1 Level-1质量评估带)或算法(例如Simple Cloud Score & F-Mask)。因此,GEE为图像预处理算法和环境研究的发展提供了基准。因此,遥感数据目录和内置功能可以被视为增强图像预处理技术的强大工具。
4.5 GEE和即用型产品
基于此评论,遥感数据在开发人员和科学家中更为流行,大多数论文(n = 312篇文章)在影像相关的期刊上发表了关于图像的现成产品(n = 37篇文章)。研究人员主要利用植被指数进行分析,其中以归一化植被指数(NDVI)为主导(Kong et al.,2019)。顾名思义,NDVI是对近红外(植被强烈反射)和红色(植被吸收)波长之间的差异进行归一化计算的(Karnieli et al.,2010)。因此,NDVI对于环境监测非常有用,特别是在作物,植被和森林测绘方面(Xiong et al.,2017)。NDVI是研究健康植被(叶绿素),随时间变化的植被,灌溉植被,生物量估计,森林供应和叶面积指数的好方法(Xie et al.,2019)。此外,气候变化监测研究利用了多种产品的功能,例如NDVI,地表温度(LST),土地覆盖类型和降水。NDVI和LST是干旱的指标,因为缺水和温度变化限制了植被的生长,可用于气候变化调查(Karnieli et al.,2010)。GEE中提供的降水信息还使科学家能够专注于供水和土壤水分。专注于生境和疾病监测的研究使用了土地覆盖,NDVI,降水和Hasen全球森林变化指数(2013)。GEE提出了基于2000年至2014年Landsat影像的时间序列分析的全球森林变化数据集,Hansen等人使用了该数据集。(2013年)以扩大森林规模并在全球范围内变化。此外,访问航天飞机雷达地形任务DEM的分辨率为30 m,这使研究人员可以将该数据广泛用于地形建模。总之,得益于GEE中提供的即用型产品,已经在区域和全球范围内进行了各种应用。
4.6 未来的工作
GEE已经成为最受欢迎的地理空间和大数据分析平台之一。尽管如此,仍然有扩展的空间。特别是,GEE为地理空间处理提供了一个易于使用且免费的平台,但是用户无法控制可能导致某些计算问题的并行处理环境的细节。这意味着GEE管理着计算的各个方面,例如源分配,并行性,数据分发和重试,而用户无法影响自己动手(DIY)并行化(Gorelick et al.,2017)。通常,GEE限制可分为三大类:计算,数据集和算法。
值得注意的是,GEE具有一些计算限制,包括时间,内存和存储。关于时限问题,GEE中有两种计算模式:按需和批处理。前者处理的运行次数有限,而后者可以在代码运行时运行。因此,将批处理用于大量计算是合理的,因为任务以按需模式运行。此外,在某些情况下,对大量数据集执行处理时,GEE可能会遇到内存问题。尽管脚本可能是没有逻辑错误的有效JavaScript,但是有时用户在并行化和执行计算时会遇到内部错误,例如内部服务错误,计算超时,超出用户内存限制以及过多的并发聚合。这些错误称为缩放错误,当输出太大,数量太多或计算时间很长时,可能会发生。关于存储,用户可以将结果保存在Google云端硬盘,Google云和GEE资产中。但是,应考虑将有限的250 GB容量用于在GEE资产中保存数据。GEE表资产的大小和形状也有一些限制。
尽管GEE包含大量的图像档案,但是对于许多研究而言,历史和高分辨率数据的价值有限。具体而言,在GEE中有13%的研究专注于灾难测绘,尤其是干旱监测。GEE还可以提供可靠的信息来监视其他灾难,例如地震和洪水图。此外,GEE当前提供高分辨率图像,包括RGB和多光谱集合中的国家农业图像计划(NAIP)和Planet Skysat。美国NAIP提供1 m分辨率的航拍图像数据。自2003-2018年以来,这些图像在GEE中可用,周期为3年和5年。从2014年到2016年,GEE还提供RGB和多光谱/平移集合的Planet Skysat影像。RGB影像以0.8 m分辨率(离地面最低图像1 m)提供,而R,G,B,近红外波段具有约2 m的分辨率,泛波段具有0.8分辨率(离最低点为1 m)。因此,需要高空间和时间分辨率的图像。
到目前为止,Sentinel-1图像是GEE中唯一可用的SAR数据;然而,通过增加从ALOS PALSAR收集的L波段数据来满足多种应用的需求,需要更长的波长,例如作物制图,开辟了新的途径。与具有中等渗透能力并主要与树冠上部相互作用的C波段相比,L波段具有更深的渗透能力并且可以与茎和枝相互作用,因此使其在多种应用中具有优势。
在GEE中,新算法的实现可能具有挑战性。在过去的几年中,由于深度学习方法与传统的机器学习工具相比具有优越性,因此在遥感领域受到了广泛的关注(Mahdianpari et al.,2018b ; Mohammadimanesh et al.,2019b ; Nogueira et al., 2017,Rezaee et al.,2018,Sun & Wang,2018,Zhang et al.,2018,Zhu et al.,2017)。特别是深度神经网络已广泛用于图像分类任务,并且在分类精度方面显示出令人鼓舞的结果(Maggiori et al.,2016)。但是,GEE尚不直接支持深度学习算法。在深度学习方面,选择开源框架至关重要。TensorFlow是开源深度学习框架中最受欢迎的框架,例如Caffe,Microsoft CNTK,MXNet,Facebook Torch,Deeplearning4j and Theano(Zhu et al.,2017)。尽管尚不直接支持深度学习分类器,但GEE最近已与TensorFlow链接(自2019年9月起)。尤其是,用户现在可以访问软件包,从而允许他们与TensorFlow保存在Google AI平台上的模型格式进行交互(DeLancey et al.,2020)。GEE API提供了以TFRecord格式导入/导出图像,训练和测试数据集的机会。TFRecord格式可以处理大量数据,它允许用户以批量处理方式运行分类器,而无需存储所有数据。因此,此功能无疑可以应对大数据分析中的挑战。
根据GEE在基于像素的分类中的最佳性能,结果表明大多数研究已使用基于像素的方法完成。然而,这将引起在大面积上寻找高质量参考数据的问题。此外,如果成功实施了复杂的无监督分类算法,则GEE可能更具说服力。例如,目前GEE代码编辑器仅支持K-means,X-means,LVQ和Cobweb。由于遥感图像的固有特性(例如非正态分布数据)和混合像素的存在,实现复杂的算法(例如ISODATA,模糊K均值,概率K均值和基于内核的聚类方法)至关重要。
总体而言,与基于矢量的处理相比,GEE被证明更适合图像分析。此外,由于使用多个CPU进行处理,因此难以完成基于像素的像素空间关系的分析。此外,图像分割和水文建模选项受到限制。因此,近年来建议对基于对象的图像分析,重型矢量运算以及提供高分辨率卫星图像进行改进。
5
结论
通过大量的文献调研,得出了以下结论:
这项荟萃分析证实,GEE在全球不同领域的地理空间数据分析中的使用已变得越来越广泛。根据对349篇同行评审文章的评论,在过去的七年中,GEE在为全球各种遥感应用程序进行地理大数据分析中发挥了至关重要的作用。使用从该系统评价中提取的信息创建了一个数据库,其中包括与地理大数据处理相关的典型领域。通过归纳总结得出以下8条结论:
(1)GEE云计算平台具有PB级的卫星图像,强大的计算能力,高级应用程序编程接口(API)和可用的机器学习算法,使研究人员能够在各种遥感应用程序中处理大量的地理大数据。尤其是,前三项遥感研究是作物测绘(22%),其次是水资源应用(20%),土地利用和土地利用变化测绘(16),这些研究利用GEE功能进行了分析。
(2)自2017年以来,GEE在各种遥感应用中的使用显着增加。具体地说,在349篇审阅论文中,分别在2017年,2018年和2019年发表了13%,25%和29%。GEE应用的增长速度明显突出了其在遥感界的普及。
(3)尽管大多数GEE研究已在美国进行(77项研究,占22%),但即使在发展中国家,该云计算平台也为访问和处理全球地理大数据提供了新的机会。因此,在拥有119项研究的遥感社区中,亚洲拥有最多的GEE用户。
(4)GEE可以被认为是一种多学科的工具,因为本文的评论文章已经发表在146个不同领域的同行评审期刊上。
(5)90%的文章使用了卫星和航空影像产品,而11%的研究只使用了现成的产品。植被指数,土地覆盖率,汉森全球森林变化和DEM是最易于使用的产品。
(6)从数据角度来看,光学数据(占90%),尤其是Landsat影像(占82%)是最常用的数据集。值得注意的是,中空分辨率(Landsat)和高时间分辨率(MODIS)数据(6%)的组合是卫星图像之间最流行的集成。由于GEE数据目录中提供了中等分辨率的图像,因此大多数研究使用的空间分辨率为5 m至30 m(71%)的数据。
(7)机器学习方法已广泛用于GEE中的遥感数据处理。特别是,RF(49%)是最受欢迎的分类器,其次是CART(13%)和SVM(11%)。
(8)在不同的光谱,背景和纹理特征中,NDVI是最常提取的图像分类特征,因为它代表了植被活力,是干旱和缺水的指示。因此,它经常被用于与植被和作物制图有关的研究以及与气候变化有关的研究。
GEE提供了一个新颖的平台,可以在各种环境应用中进行地理大数据分析。尽管平台总是有进一步发展的空间,但具有独特计算能力,免费提供的卫星图像和脚本工具的GEE的出现,增强了研究人员在不同领域执行地理空间分析的能力。由于这些独特的功能,与其他竞争对手的平台相比,GEE更具优势,但应消除其一些弱点。例如,目前在GEE中使用有限数量的基于对象的图像分析算法和聚类方法。值得注意的是,高级分割和聚类算法的实现极大地有助于描绘出准确的地面真实数据。这对于成功地将机器学习工具成功应用于大规模土地覆被制图尤为重要。在本文中,在联合分析中比较了不同的GEE应用程序,以阐明GEE在地理大数据管理中的潜力。因此,对具有狭窄主题(例如,每个应用程序和研究领域)的GEE文章进行的调查可以提供不同研究领域的详细理解。
表 Google Earth Engine云平台提供的主要卫星图像概要
参考文献:
Tamiminia, H., Salehi, B., Mahdianpari, M., Quackenbush, L., Adeli, S., & Brisco, B. (2020). Google Earth Engine for geo-big data applications: A meta-analysis and systematic review.ISPRS Journal of Photogrammetry and Remote Sensing, 164, 152–170. doi:10.1016/j.isprsjprs.2020.04.001