Comput Geosci (2022) | 地球科学人工智能研究评述

2022-03-28 13:48:08 浏览数 (1)

图片:Earth AI 概念图

有地球人工智能理论和基础设施的突破将把地球科学带入下一个阶段: 地球人工智能。地球科学界必须赶上观测数据集爆炸的步伐,以可承受的成本和足够的准确性迅速建立可用的人工智能模型。地球人工智能的研究和开发仍处于初级阶段,从数据到模型到操作的所有重大挑战都可以在从学术界到政府和工业界的所有部门中获得无数机会。地球人工智能的未来是光明的,对整个人类社会和地球系统极为有益,它应该将我们的文明推进到其下一个史诗般的阶段,并将地球转变成一个更可持续、更健康的星球。

A review of Earth Artificial Intelligence

近年来,随着计算机科学领域中呈现指数级积累的科学数据集和前景广阔的人工智能革命,地球系统科学迫切需要在提高精度、提高模型智能水平、扩大业务规模、降低成本等多个子领域进行创新。本文介绍了由美国宇航局地球科学数据系统工作组和 ESIP 机器学习集群领导的工作,以全面概述人工智能在地球科学。它全面介绍了当前的状况、技术、用例、挑战和机遇,并为地球科学的所有级别的人工智能从业者提供了一个总体的大局,以及对地球人工智能的未来发展“吹散迷雾,获得一个更清晰的视野”。本文涵盖了地球系统中的所有主要领域,并调查了每个领域中具有代表性的人工智能研究。简要介绍了广泛使用的人工智能算法和计算网络基础设施。对典型的人工智能工作流程中解决地球科学问题的必要步骤进行了分解和分析。最后,它总结了巨大的挑战,并揭示了机会,以提供一些指导和预警,明智地分配资源,以实现未来雄心勃勃的地球人工智能目标。( Earth AI goals in the future)

精彩内容:

(采用GT4T机译,如有不当请见谅,以原文为准!)

  • 提供了人工智能在所有地球科学领域应用的概略图
  • 概述典型的地球人工智能工作流程的强制性模块化步骤
  • 介绍了地球人工智能的12大挑战和潜在机遇

1. Introduction 引言

2. AI techniques 人工智能技术

2.1. Knowledge-based system 知识基础系统

2.2. Probabilistic machine learning 概率机器学习

2.3. Unsupervised learning 非监督式学习

2.4. Supervised learning 监督式学习

2.5. Deep learning 深度学习

2.6. Reinforcement learning 强化学习

3. Existing Earth AI research 现有的地球人工智能研究

3.1. Geosphere 岩石圈

3.2. Hydrosphere 水圈

3.3. Atmosphere 大气层

3.3.1. Biosphere 生物圈

3.3.2. Cryosphere 冰冻圈

3.4. Oceanography 海洋学

4. Workflow 工作流程

4.1. Data preparation 数据准备

4.2. Model building 模型制作

4.3. Training, testing & validation 训练,测试和验证

4.4. Sensitivity analysis 敏感度分析

5. Tooling and services 工具和服务

5.1. Computing device 计算设备

5.2. Cyberinfrastructure 网络基础设施

5.3. Software 软件

6. Challenges and opportunities 挑战与机遇

6.1. Model development 模型开发

6.2. Data preparation 数据准备

6.3. Training optimization 训练优化

6.4. Parallel computing 并行计算

6.5. Explainable AI 可解释的人工智能

6.6. Generalization 泛化

6.7. Uncertainties 不确定性

6.8. Integration with physics-based models 与物理模型的结合

6.9. Provenance, reproducibility, replicability, & reusability 可溯性、可再生性、可复制性和可重用性

6.10. Full-stack workflow automation 全栈工作流自动化

6.11. AI ethics 人工智能伦理学

6.12. Operation management 业务化管理

7. Summary 总结

1. 引言

随着无数传感器部署在全球各地,人类对地球系统的了解正在爆炸性地增长。这些传感器每天都会捕捉大量的地理位置数据,帮助我们更深入地了解自然环境、人类社会和外太空。这些信息对于(1)了解和理解自然系统、(2)预测人类活动的趋势和后果以及(3)评估对人类社会和地球的危害是至关重要的。尽管有众多的工具、方法和理论,我们仍然不能有效和充分地利用这个巨大的数据矿井。目前关于地球如何应对全球变化的理论,由于人工配置和数据处理,充满了不切实际和主观的假设。

人工智能(AI)模型在许多情况下都优于传统的数据处理,如识别街景、提取道路和理解医学图像。20世纪80年代的第一代人工智能研究产生了许多经典的理论和方法,但是最早的模型由于计算的局限性而花费了太长的时间来训练。随着最近硬件和软件的快速发展,人工智能加速了医学、生物学和经济学领域的科学进步和发现。

如今,人工智能已不再是一个实验室概念,而是应用于许多日常场景,如银行业务、相机对象识别、远程通信、家用机器人清洁工、推荐系统、自动驾驶、自动结账等。所有这些应用都依赖于计算机算法,这些算法通过模拟大脑神经系统来消化信息和解决问题。然而,不像人类的大脑只能通过演绎学习一个对象来区分许多对象,人工智能算法必须学习成千上万的模式才能做出准确的决定 (Qiu et al., 2016)。由于大数据在构建人工智能中起着至关重要的作用,操纵大数据对于设计可靠的基于人工智能的工作流至关重要(Mayer-Schönberger and Cukier,2013)。

地球科学家领导了工具的开发,弥补了地球科学数据和人工智能模型之间的差距(图1)。在这里,我们探讨了现代计算工作流程,存储需求,以及在地球科学领域进行人工智能研究的革命性资讯网路基础设施。理论和基础设施的突破将把地球科学带入下一个阶段: 地球人工智能(Earth Artificial Intelligence,AI)。我们设想地球人工智能是一个庞大的系统组合,能够自动监测和预测自然,帮助人类社会适应环境变化,引导人类制定明智的行星政策和决定,并保护我们免受地质灾害。地球人工智能将成为应对人口爆炸、粮食安全和气候变化等重大挑战的重要工具。本文将概述地球人工智能的现状,列出面临的重大挑战,并展望地球科学的巨大机遇。第二节介绍了目前流行的人工智能技术,第三节将介绍它们在地球科学中的应用。第4节总结了 Earth AI 工作流中的一般步骤,第5节讨论了有用的工具和服务。第6节讨论了地球人工智能从业者面临的主要挑战和随之而来的机遇,并在第7节中总结。

2. 人工智能技术

人工智能这个术语,在许多不同的地方都有使用,可能会让地球科学家感到困惑。人工智能技术的范围远远大于流行的机器学习(ML)和深度学习(DL)。一般来说,机器学习是人工智能的一个子集,而 DL 是机器学习的一个子集。由于覆盖整个人工智能宇宙是不切实际的,本节将简要介绍在地球科学中广泛使用的里程碑技术。

2.1. 知识基础系统

在机器学习成为病毒之前,基于规则的系统主导了数据消化和决策支持技术,直到今天仍然执行关键数据分析。基于规则的方法依赖于一组规则,每个规则描述一些上下文知识(Clancey,1983) ,通常表现为 IF/THEN 表达式。例如,如果河流达到行动(洪水)阶段,气象局必须采取缓解行动,为可能的重大水文活动做准备(NWS,2021)。由于规则是常识,包含较少的模糊判断,基于规则的系统具有很好的稳定性和确定性,在许多行业中普遍存在。

2.2. 概率机器学习

概率机器学习为工程机器提供了一种实用的方法,可以通过学习实际数据来进化(Ghahramani,2019)。大多数机器学习模型使用概率理论来处理不确定性的挑战。概率论可以用来表达多种形式的变化和噪音,防止预测中出现过多的错误。在机器学习中,一个概率推理者可以推断给定输入数据的概率密度函数,并最终在不确定性的控制下做出预测(Pearl,1988)。

2.3. 非监督式学习

非监督式学习搜索数据集中的隐藏模式,既没有注释也没有干预(Ferran et al. ,2013)。与严重依赖于人工标签的监督式学习不同,非监督式学习探测器只是根据输入的一般概率密度。一个常见的例子是根植于地球科学分析中的聚类分析,例如,地球化学样本分组(Templ et al. ,2008)。这些聚类是自动分组使用距离度量,如在特征空间的欧几里得度量和算法,如 k 意味着,隐马尔可夫等。

2.4. 监督式学习

目前大多数人工智能应用程序都涉及到一个变压器监督式学习,这个变压器将输出和输入连接起来。它可以进一步分为两个子类型: 回归和分类。回归可以输出一定范围内的任意连续数(如大气压力、地表温度、降水量)。分类模型输出仅限于一组预先确定的数字。监督式学习有一个广泛的方法集合,包括 k 最近邻(KNN)(Henley and Hand,1996) ,决策树(DT)(Safavian and Landgrebe,1991) ,支持向量机(SVM) ,随机森林(RF)(Breiman,2001) ,人工神经网络(ANN)(Gurney,2014)等。像 Bagging (bootstrapping)(Breiman,1996)或 Boosting (即 AdaBoost)这样的元算法可以用来进一步提高精度和稳定性(Freund and Schapire,1997)。

2.5. 深度学习

深度学习(DL)指的是一组强大的神经网络,与它们的祖先相比,它们具有更多的隐藏层和复杂的结构(例如多层感知机)。DL 可以用于监督式、非监督式和半监督式。深度卷积神经网络(DCNN)通常用于特征提取和降维分析(Krizhevsky et al. 2012)。神经网络在学习表征方面的强大能力往往导致更好的预测性能。然而,优越的性能带有一个限制,即 DL 更加需要数据,其应用程序通常仅限于大量高质量标记数据可用的情况(Mousavi 等人,2019)。

根据数据流的不同,DL 可以分为两个主要分支: 前向神经网络(FNN)和回归神经网络(RNN)。前者简单,信息只向一个方向移动。后者的信息在一个圆圈中移动,这意味着前一步的输出应该被输入到正在进行的步骤中。每个分支都有许多变种,并形成各种各样的高级网络,如 ResNet (He 等人,2016) ,U-Net (Ronneberger 等人,2015) ,PSP (赵等人,2017) ,SegNet (Badrinarayanan 等人,2017) ,VGG-16,DenseNet (Iandola 等人,2014) ,YOLO (Redmon 和 Farhadi,2018) ,r-CNN (Girshick,2015) ,Mask RCNN (He 等人,2017) ,plaeb (Chen 等人,2017)。

2.6. 强化学习

强化学习找到了一个最大化数字奖励信号的最佳方法。学习模块必须根据自己的决定选择行动,以找到最有回报的最佳路径(不是唯一的)。它不同于监督式和非监督式学习式,后者既不需要训练数据集,也不需要在未标记数据集中发现隐藏结构。它的一个关键特征是,它明确地考虑了由主体与不确定环境和无数潜在解决方案相互作用的目标导向问题。术语“代理”不一定是真正的机器人,但可以是一个虚拟的程序来探索数据。强化学习分析适用于这样的情况,即检索所期望的行为数据是不现实的,这些行为对于代理人可能采取的所有可能行动都是正确的和整体的。

3. 现有的地球人工智能研究

3.1. 岩石圈

人口增长在需要自然资源来维持人口方面提出了严峻的挑战,但由于使更多的人面临自然(如构造地震、火山、滑坡)和人为(如诱发地震、大坝倒塌)地质灾害,从而增加了脆弱性。在这些挑战面前维持基础设施需要地球科学家对这些现象及其背后的物理机制有更深入的了解。虽然人工智能还远远没有完全实现,但它现在已经广泛应用于地质学的所有领域,包括寻找矿物(Saliu et al. ,2020)和能源(Koroteev and Tekic,2021)。

下面是应用人工智能实现这一目标的主要实践概述(表1)。

(1)地震

表1. 文献综述。

Earth Spheres

AI Techniques

Research Topics

Atmosphere (39)

SVM (10)

Ozone (5)

RF (7)

Hurricane (4)

BRT (1)

Dust (3)

ANN (12)

Wildfire (5)

DL (17)

Drought (4)

Cubist (1)

Air Quality and Pollutants (6)

Precipitation (11)

Dew Point (1)

Geosphere (15)

ANN (6)

Earthquake (7)

Hidden Markov (1)

Volcano (2)

DT (1)

Mineral (1)

DL (3)

Landslide (4)

SVM (2)

Soil Erosion (1)

Logistic Regression (2)

Hydrology (22)

DL (5)

Water forecasting (7)

ANN (13)

Water quality (3)

SVM (5)

Groundwater (7)

RF (4)

Rainfall-runoff (4)

Cubist (2)

River sediment (1)

River discharge (2)

Cryosphere (14)

DL (5)

Glacier (2)

RF (4)

Sea ice (9)

SVM (3)

Snow (3)

DT (2)

Oceanography (15)

DL (10)

Sea surface temperature (4)

ANN (5)

Surface process (2)

Eddy (7)

Deep current (1)

Subsurface temperature (1)

Biosphere (16)

DL (15)

Animal behavior (6)

SVM (1)

Microorganism (6)

Plant disease (1)

Agriculture (5)

(2)火山

尽管它们的频率和破坏性的后果,许多仍然是未知的地震产生机制和影响。地震预报作为地震学的圣杯,已经成为人工智能技术广泛应用的热点话题。前馈(Lin and Chiou,2019)和回归神经网络(Adeli and Panakkat,2009)是这项任务中使用最多的机器学习方法。在这些方法中,神经网络预测未来地震的震级和位置(Karasözen 和 Karasözen,2020年)——在一个时间或时空窗口——通常基于先前地震特征的时间序列,如发生时间、震级或震源位置。尽管最近在开发先进的数字图书馆方面取得了进展,但是如何将其有效地应用于基于 ai 的地震预测仍然存在挑战(Mignan 和 Broccardo,2020)。这是因为大多数地震目录都是以简单的表格格式记录的,而且只有有限的特征可用于训练更复杂的模型。然而,DL 方法学加速了地震监测更可靠和有效算法的发展(Mousavi 等人,2020)。基于 ai 的地震监测方法可以在两个方面提高地震灾害的安全性: 通过授权地震早期预警系统(Bose 等人,2008年)对地震参数进行更快和更可靠的估计,以及通过提供更完整和更精确的地震目录用于改进长期地震灾害评估(Mousavi 和 Beroza,2018年)。

(2)山体滑坡

在火山学中,几十年来,人工分析气体排放、变形测量和地震信号一直被用来监测、减轻和尽量减少与火山灾害有关的风险(Tilling,1989年)。人工智能在火山监测中的一个主要应用是区分地震火山震动和类似事件,包括地震、山体滑坡、熔岩喷泉、风和雷电。成功测试的机器学习技术包括 ANN (Scarpetta et al. ,2005) ,SVM (Masotti et al. ,2006) ,Hidden Markov 模型(Beyreuther et al. ,2008) ,模糊逻辑(Hibert et al. ,2014)。通过从流动地震数据中探测前兆,也可以使用 AI/ML 对蒸汽驱动的突然喷发进行短期预报(Dempsey 等人,2020)。人工智能在大型火山爆发前几小时到几天之间识别能量爆发的能力是很有启发性的,并且已经证明了机器学习可以在未来发出短期的拯救生命的火山警报。

山区的山体滑坡每年造成数十亿美元的损失。AI 在滑坡研究中的应用主要致力于风险评估工作(Mousavi 等人,2011年)。滑坡敏感性制图已经用 ML 方法进行了实验,比如 Logit模型方法(Umar 等人,2014年) ,ANN 方法(Nefeslioglu 等人,2008年)和 SVM 方法(Peng 等人,2014年)。一组控制变量,如土地坡度、植被覆盖、降水量、土壤质量和水文环境,被测量并用作 ML 输入来计算滑坡的可能性。另一组人工智能应用是基于遥感(RS)图像的滑坡自动识别。例如,CNN 在完成尼泊尔的滑坡自动探测方面进行了评估,得出结论认为,CNN 在滑坡探测方面“仍处于初级阶段”(Ghorbanzadeh et al. ,2019)。准确预测山体滑坡的发生地点和时间仍然是一个至关重要的挑战(Korup 和 Stolle,2014)。虽然我们对边坡破坏机理的认识可以融入到物理模型中,但由于土壤和地下水的高分辨率观测不足,限制了模型的有效运行和提高精度。输入数据的质量和潜在的过拟合仍然是影响现实世界预测情景中模型准确性的主要问题。然而,数据挖掘和机器学习方法在处理滑坡预测方面正日益受到欢迎。

3.2. 水圈

(1)降雨

水圈的研究大大受益于人工智能的方法和应用(Hu 等人,2018; Kratzert 等人,2018; Mo 等人,2019; Mohajerani 等人,2019; Naganna 等人,2019; Shen,2018)。本节将从降雨、地表水和地下水三个方面进行阐述。

(2)地表水

降雨预报涉及到在数据中学习复杂的非线性模式。建议的降雨预报方法包括使用组合的 RNNs 和支持向量机(Hong,2008; Lin 等人,2009)或奇异谱分析(SSA)和支持向量机(Sivapragasam 等人,2001)。这种多模型方法扩展到包括人工神经网络,KNN,和径向基支持向量机预测日或月降水量(Sumi 等人,2012年)。其他例子包括使用卷积 LSTMs (Shi 等人,2015年) ,RF 从光学卫星图像检索降雨率(Kühnlein 等人,2014年) ,以及结合 ANN,SVM 和 DT 进行短期降雨预测(Ingsrisawang 等人,2008年)。

(3)地下水

基于人工智能的方法经常被用于非线性水文问题的模拟(Fathian 等人,2019; Yaseen 等人,2015)。像神经元-小波混合系统这样基于 ml 的方法在预测河流流量(Anctil 和 Tape,2004) ,监测沿海水质(Kim 等人,2014) ,以及发现水位和放电之间的复杂关系(Bhattacharya 和 Solomatine,2005)方面表现出类似的性能。模糊神经网络、广义回归神经网络和模糊逻辑也有助于填充测量不足的水位数据(Turan 和 Yurdusev,2009年)。河流研究人员使用人工神经网络,自适应网络模糊推理系统(ANFIS) ,和小波耦合神经网络预测泥沙负荷(奥利亚等,2015年)和水位(徐等,2015年) ,并发现 ML 技术更有效。耦合的方法,如集成的人工神经网络,贝叶斯,和遗传算法(GA)进行了测试和产量改善(3-11%)(佩里亚等人,2019年)。类似于 LSTM 的 RNN 被用于发现水中的污染物质(Wang 等人,2019b)。像陆地卫星8号图像这样的遥感数据为 ML 提供了丰富的数据源来量化不同地表水质参数的浓度(Sharaf El Din et al. ,2017)。考虑到水社会的研究,ML 模型已经成功地应用于印第安纳波利斯周围的水消耗量预测(Shah 等人,2018年)和许多其他情景。

由于地下水难以在规模上测量,基于人工智能的算法在获取信息和进行对地下水管理至关重要的预测方面非常有用。ML 成功地绘制了地下水管理图(Barzegar 等人,2018年) ,评估了硝酸盐污染的风险(Nolan 等人,2015年; Sajedi-Hosseini 等人,2018年) ,并预测了地下水水位(Sahoo 等人,2017年)。机器学习模型包括支持向量机,RF,和遗传优化随机森林,可以评估地下水潜力的位置(Naghibi 等人,2017年)。它注意到 RF 在大尺度硝酸盐浓度预测中优于分类和回归树(CART)(Knoll et al. ,2019)。对于复杂的常规模型来说,ML 集合模型是一种实用的替代方法,可以用来观测地下水的分布。关于城市地下水网络,ML (例如,极限学习机器-ELM)(Sattar 等人,2019年)可以帮助估计单个管道的潜在故障,以防止未来的悲剧事件。

3.3. 大气圈

(1)飓风

本节着重介绍人工智能在大气现象方面的发展进展。除了解决下面具体的大气地质灾害之外,人工智能在气象学的基本所有方面,特别是在提高数值天气预报的技能和效率方面,以及在吸收和解释气象卫星观测所包含的大量数据方面,都具有日益增长的重要性(Boukabara 等人,2021年)。

(2)气象干旱

热带气旋(飓风、台风等)是所有灾害中代价最高的(Klotzbach et al. ,2018)。使用重新分析数据(Giffard-Roisin et al. ,2018)和卫星图像(Cao and Choe,2020; Yu et al. ,2019) ,ML 被用于预测飓风路径和评估损失。对于哈维飓风,机器学习模型的损害注释准确率达到了97% 以上。像 RNN 和 ConvLSTM 这样的时间序列预测模型可以学习飓风行为和计算轨迹(Alemany 等人,2019; Kim 等人,2019)。利用20年的气候再分析数据进行的大量实验表明,ConvLSTM 比其他方法具有更高的精度。其他数据源,如被动微波卫星数据也与 DL 一起用于监测热带气旋(Wimmers et al. ,2019)。为了通过消除小规模低影响事件来简化问题,DL 成功地检测到了只有强风暴(Maskey 等人,2018)。从社会影响的角度来看,一些研究人员使用机器学习来快速识别飓风临界的推文(沙姆斯等人,2019)。

(3)野火

干旱是一种复杂的自然灾害,每年都对全球经济、社会和环境造成巨大破坏(Wilhite,2016)。在非洲(Belayneh et al. ,2016)、澳大利亚(Deo and 沙欣,2015)、美国(Agana and Homaifar,2018)和中国(Chen et al. ,2012)的干旱预测中已经应用了 ML。一些研究使用 ML 来预测干旱指标(Sutanto 等人,2019年) ,如 SPEI 和 SPI (Belayneh 和 Adamowski,2012年; Maca 和 Pech,2016年) ,并估计无资料地区的干旱严重程度(Sadri 和 Burn,2012年)。Ml 为使用遥感数据的高分辨率干旱预报模型(Rhee 和 Im,2017)。在产品处理方面,不同的机器学习方法在降尺度每小时降水再分析到月数据中进行了比较,相关向量机工作得最好(Sachindra et al. ,2018)。

(4)沙尘暴

许多国家的森林大火不断增加,对人类健康和经济造成不利影响。早期火灾探测和干预对于尽量减少野火损失至关重要。各种人工智能/机器学习方法已被应用于改善火灾探测和预报(Jain 等人,2020年) ,野火严重程度分类和地图(Brewer 等人,2005年) ,并自动探测野火在无人机或卫星图像(赵等人,2018年)。引人注目的研究使用人工智能在改善烟羽预报与卫星(例如,CALIPSO)观测(姚等人,2018年)和推断臭氧扩张和分布(沃森等人,2019年)。其他应用还包括利用遥感图像识别野火(Sayad et al. ,2019)和评估与糟糕的空气质量有关的人类健康问题(Reid et al. ,2016)。与此同时,科学家们利用机器学习来追踪人为引起的野火,并发现 RF 是目前测试中最准确的(Rodrigues 和 de la Riva,2014)。

(5)人为空气污染物

尘源与多种健康影响和社会经济影响相关,包括传染病和高速公路安全。机器学习越来越多地被用于检测不同尺度的尘埃来源、传输和风蚀易感性(Boloorani 等人,2022; Gholami 等人,2021; Lin 等人,2020)。ML 被用于反向排放建模,以提高精确度和优于传统的化学传输模型(Jin 等人,2020)。使用 RS 和 ML 绘制了2005-2016年伊朗尘源磁化率图(Boroughani 等人,2020)。各种 ML 模型基准化调查土壤对灰尘的敏感性,发现 RF 表现最好(Gholami 等人,2021)。在全球范围内,ML 仍然适用(Lee 等人,2021)。

空气污染与每年700多万人过早死亡有关(世卫组织,2021年)。其中大多数是由于接触臭氧和 PM2.5(细颗粒物)。然而,不断变化的动态使得计算机模型预测空气质量变得极其困难。人工智能已经参与应对这些挑战,特别是预测 O3,PM2.5和氮氧化物,一种有助于形成 o3和 PM2.5的前体化学物质(nopack et al. ,2018; Wang et al. ,2003; Wu et al. ,2017; Zhang et al. ,2012)。早期的工作经常利用神经网络方法来改善空气质量预报(Abdul-Wahab 和 Al-Alawi,2002; Kolehmainen 等人,2001; Ruiz-Suarez 等人,1995)。最近,更先进的机器学习算法被用来增强臭氧和二氧化氮的预测,支持向量机在预测日最大臭氧浓度方面优于神经网络(Chelani,2010)。对于小颗粒空气质量预测,DL 可以完成一些常见的任务,比如镶嵌、插入缺失值或者选择特征(Du 等人,2018; Fan 等人,2017; Qi 等人,2018)。

3.3.1. 生物圈

(1)植物(植物学)

生物圈代表着地球系统的生命部分。本节从植物、动物和微生物三个主题简要介绍了人工智能在生命科学中的地位。

(2)动物(动物学)

植物分布地理学是地球人工智能研究的一个活跃领域,利用遥感影像和机器学习技术,特别是 DL 技术,由于其成本低、精度高,已成为主流技术。在生物地理学研究中,由人工智能衍生的地图正在激增。利用公开的叶子数据集来区分14种作物和26种疾病,DCNN 可以达到99.35% 的准确率(Mohanty et al. ,2016; Sun et al. ,2019a)。农业在诸如疾病检测、作物产量预测和灌溉推荐等方面有许多意义深远的应用场景(Kamilaris et al. ,2017)。耦合 RNN-CNN 模型可以预测玉米产量在美国中西部(孙等人,2019b) ,可以成为一个低成本可靠的替代指导灌溉(Vij 等人,2020)。

(3)微生物

传感技术的进步为动物提供了大数据,如 GPS 和视频监控。再加上专业人士和市民科学家手工收集的数据,一个关于野生动物的位置、动作、行为和幸福感的巨大数据集已经存在。同样,大数据正在成为畜牧业的常态(Neethirajan,2020)。基于这些数据集,人工智能在动物学中的应用主要集中在从图像中检测、计数和描述动物及其行为。DL 已被证明能够有效地通过摄像头捕捉图像识别野生动物(Chen et al. ,2014) ,归因野生动物的行为(Norouzzadeh et al. ,2018) ,检测蝙蝠的超声波叫声(Mac Aodha et al. ,2018) ,以及投影鸬鹚潜水(Browning et al. ,2018)。对于城市动物,DL 可以分析城市音频数据(Fairbrass et al. ,2019)和动物轨迹(Maekawa et al. ,2020)。然而,尽管人工智能在动物学领域取得了长足的进步,但仍处于实验阶段,尚未完全渗透到动物学界。

与动物学相似,人工智能也是在微生物学方面深入研究的(Egli et al. 2020)。DL 已经鉴定了30种常见的细菌性病原体(Ho 等人,2019年) ,通过延时全息图在食物和水中检测到病原菌(Wang 等人,2020a 年) ,80个硅藻的分类总体准确率达到99% (Kloster 等人,2020年; Pedraza 等人,2017年)。Dl 驱动的工作流可以自动识别病毒、细菌、真菌和寄生虫的显微图像(Zhang 等人,2021)。科学家们还利用人工智能预测微生物的进化,估计细菌、古生菌和微生物真核生物的最佳生长温度,并预测大肠桿菌的 sgRNA 活性(Wang 和 Zhang,2019)。然而,由于机器学习需要大量的工作,以获得足够的训练标签,预先训练的模型可以重新用于分类环境微生物,以降低成本(Kosov 等人,2018年)。

3.3.2. 冰冻圈

(1)海冰

极地科学研究的是地球上的冰冻区域,它们受环境变化的影响比整个地球更大。尽管多年来在建模方面的努力,准确地预测变化和结果仍然是冰冻圈社区未解决的挑战。

(2)雪

AI/ML 已经被用于从 Sentinel-1(Baumhoer 等人,2019年)绘制南极洲冰架图,估计北极海冰厚度(Tiemann 等人,2018年) ,并在 SAR 图像上评估其融化速度(Lee 等人,2016年; Wang 等人,2016年) ,并区分水和冰(Leigh 等人,2013年)。它可以帮助识别海冰的年龄/类型,因为根据雷达信号穿透,海冰的雷达后向散射信号既包括粗糙表面的散射,也包括来自冰下的散射(Ghanbari 等人,2019; Lohse 等人,2019; Park 等人,2020)。GNSS 图像和机器学习可以用于海冰探测(Yan 和 Huang,2018)。微地震和海冰活动之间模糊的联系也适用于 AI/ML (Cannata 等人,2019)。

雪研究有两个主要指标: 雪水当量(SWE)和雪深; 两者都可以由 AI/ML 监测和预测,并且具有良好的可靠性(Holt 等人,2015; Wang 和 Zhang,2019)。来自微波卫星的 svm 导出的积雪深度产品可以通过稳态观测的验证测试,并且具有更高的精度,同时能有效地抑制饱和效应(Xiao 等,2018)。先进的 DL 方法,例如深度残差网络,在卫星地图的雪检测中比 RF,SVM 和 NN 有更好的表现。同时,人工智能/机器学习正在深入地进行像素级别的雪和云的区分实验(詹等人,2017)。

3.4. 海洋学

湍流的海洋包含着小尺度的漩涡,这些漩涡影响着海洋学的观测数据,如海平面高度(SSH)、颜色、粗糙度和温度(SST)。用机器学习识别这些特征是一个热门的研究领域。海洋中尺度涡流(大约300公里直径)通常由基于物理的算法识别,以前的开创性工作产生了一个涡流数据库(Chelton 等人,2011年)作为机器学习的一个健壮的基准。到目前为止,CNN 已经使用 SSH (Franz et al. ,2018; Santana et al. ,2020) ,SAR 图像(Du et al. ,2019; Huang et al. ,2017) ,高频雷达(HFR)数据(Liu et al. ,2021)和 SST 图像(mos et al. ,2020)进行涡流识别。

合成孔径雷达以极高的分辨率(∼10ー25米)提供了前所未有的海洋表面粗糙度细节。随着更高质量的哨兵 -1号接替早先的雷达卫星 -1号和环境卫星任务,机器学习正在加大对合成孔径雷达海洋图像的努力,以确定和绘制旋涡以外的许多表面特征(Wang 等人,2019a)。在沿海地区,在低至中等风速下,由于每个涡旋内部有多个黑暗的曲线条带,标准合成孔径雷达图像更充分地捕捉到了次中尺度涡旋(直径5-30公里)。早期的应用机器学习在合成孔径雷达海洋探测是绘制石油泄漏出现的石油渗漏(加西亚-皮涅达等人,2009年,2013年)。

卫星海洋表面观测本质上是快乐的,因为云层覆盖或稀疏的地面轨道,如传统的最低点高度计和即将到来的 SWOT (杜兰德等人,2010年)高度计任务。人工智能/机器学习可以解决合成的 SWOT SSH 数据中的问题,证明了基于人工智能的内插算法在填补包含小规模海洋涡流的空白方面的可行性(Manucharyan 等人,2020)。更进一步,基于 cnn 的算法可以用于重建由这些涡流引起的通量(Bolton 和 Zanna,2019; George 等人,2021)。这些算法对于粗分辨率气候模式无法解决的涡旋通量的参数化有一定的参考价值。

由于海洋环流是三维的,基于 ai 的算法也可以基于表面卫星场反演深海信息(Ali 等人,2007; Cheng 等人,2021; Wang 等人,2021)。其他方法包括一个自组织映射算法(Chapman and Charantonis,2017; Wu et al. ,2012) ,CCN (Han et al. ,2019) ,带有果蝇优化算法的神经网络(Bao et al. ,2019) ,以及 RF (Su et al. ,2018)。

海洋学正在从数据匮乏的状态过渡到数据极其丰富的状态。如何利用以拍字节为单位的海量数据,提取有用信息,用于新的科学发现或对”蓝色经济”具有直接社会影响的应用,是社区面临的新挑战(Watson-Wright 和 Snelgrove,2021)。可以预见,基于 ai 的算法将在过渡中发挥引人注目的作用。

4. 工作流程

4.1. 数据准备

(1)时间序列

在大多数有监督的机器学习研究中,训练数据集包括两个组成部分: 输入观察值和相关标签。输入是完全观测和循环数据源,如 RS 图像,静态数据,模型模拟等。输出变量通常很少被观察到,但是对于理解地球系统过程,如排放,土地覆盖,土壤湿度等是至关重要的。在这个过程中出现了几个问题:

(2)格式

时间轴是地球数据进行趋势分析和预测的基本特征。地球观测是数字的离散序列(例如,每秒、每分钟、每小时等) ,其中数据间隔和时变噪声是常见的。带通滤波、下采样、上采样、去趋势、插值和平滑是时间序列数据预处理的常用方法。

(3)投影及网格

几乎每一个主要的数据提供商或专业软件都有一个专有的自定义格式。例如,HDF 是 NASA 的官方格式,NetCDF 通常用于 NOAA 和气候社区,GeoTiff 是流行的地理参考图像。此外,每种格式都有不同的版本,可能会导致 i/o 程序的兼容性问题。像 GDAL/OGR 和 NCO 这样的库可以解决这些问题。但是,不同的格式在聚合多个源数据集时仍然令人头疼,需要额外的工作。

(4)元数据

多源数据集通常具有不同的坐标系统。NASA 的产品使用 Sinusoidal projection,netCDF 使用4-d 网格空间系统,OpenStreetMap 使用 EPSG: 5070,许多公共数据集使用 WGS84(EPSG: 4326)。为了在同一地区/位置整合来自不同来源的数据,需要将数据重新投影或重新网格化到同一个坐标系。任何移位都可能导致错误的误导性结论。GDAL,Proj4,ESMF reridding Toolkit,是重新投影和重新网格化的常用工具解决方案。

元数据是数据采集和共享的重要组成部分。通过以全面和标准化的方式提供命名约定、变量单位、分辨率、投影、观察时间、联系信息和数据文件版本等信息,可以使数据集更有效地重用。然而,如果元数据没有标准化,那么如果用户不熟悉数据或者不完全理解文件中包含的数据的出处(例如,降水量以英寸或厘米为单位报告) ,那么底层数据集可能会被误用(Mons 2020)。最近的一项调查表明,大多数研究人员并不使用或不熟悉其学科的元数据标准化协议(Tenopir et al. ,2020)。

4.2. 建立模型

为地球科学中的一个特定问题建立一个合适的机器学习模型是很棘手的,需要进行大量的比较和实验。专家在选择最符合他们目标的模型之前,必须获得多个模型的专业知识并比较它们的性能特征。

作为一个例子,给出了一个问题描述,没有一个通用的方法来评估一个神经网络模型的神经元和层的最佳设置的先验。一种常见的方法是基于先前的经验,对类似问题中使用的网络进行粗略的猜测。这种假设可以是用户体验,或者是从培训课程、博客或研究论文中学到的二手/三手体验。在这一点上,研究人员可能会尝试一些变化,仔细评估模型的表现,然后再决定一个战略。神经网络的大小和深度与其他超参数相互作用,改变一个变量会影响其他超参数。一个简单的逐步指南是:

  • 创建一个与输入相似大小的隐藏层网络。
  • 尝试改变网络宽度和深度。
  • 尝试删除一些节点和其他解(例如,丢失、学习率衰减、正则化、优化算法、损失函数等)。
  • 经过一些调整,最终确定一个总体更好的模式。

用户不应该迷失在机器学习模型的调整中,因为总会有更好的模型。探索数据有助于形成对准确性的合理预期。首先尝试简单的线性方法来创建超越的基准。考虑一个不同的机器学习算法可能会改变你的想法,更快,并且比你原来的选择更有效。

4.3. 训练,测试和验证

大多数机器学习模型需要三个数据集: 训练、验证和测试。在实践中,整个数据集首先被分割成学习数据集和测试数据集。学习数据进一步划分为训练数据集和验证数据集。训练数据集用于模型的拟合。验证数据集在训练期间提供模型的实时评估。测试数据集提供了最终模型的开箱即用评估。三个数据集的分配没有一个固定的最优比例。为了保证模型的无偏性,分裂是重复 n 次,并且精度是平均的,这被称为 n 次交叉验证。

4.4. 敏感度分析

敏感度分析是一系列用于量化机器学习不确定性的方法。研究了每个输入变量对输出的特征重要性。为了衡量每个输入变量的影响,对模型输出进行了比较,模型中的所有变量都在适当的位置,而模型中的一个变量排除或固定了所有其他变量的值,只调整了一个输入因子的权重,以发现模型输出的变化情况。敏感度分析机器学习的任务是在现实世界中实际应用机器学习; 它明确揭示了模型输出对每个变量的依赖程度,并将更多的控制权交给实践者,特别是当新的观测结果是极端事件,并且可能是超出模型预测能力的额外离群值时。

5. 工具和服务

地球科学的大数据特性和人工智能算法的高复杂性要求强大的计算能力。本节概述了目前流行的地球人工智能硬件和软件。

5.1. 计算设备

常用的机器学习设备有中央处理器(CPU)、图形处理器处理器(GPU)、现场可编程逻辑门阵列处理器(FPGA)和专门的加速器(如 TPU-TPU)。图形处理器具有快速计算卷积和矩阵运算的优势。在 DL 中,权重在每个周期中更新,并存储在内存或本地缓存中,以便从一个迭代转移到另一个迭代。Gpu 具有比 cpu 更高的内存带宽,并为更密集的工作负载和流式内存模型进行了优化。

此外,科学家们还积极探索人工智能计算领域的下一次革命。在 r. Feynman 提出量子计算机的想法之后,量子计算被认为是下一个潜在的重大突破,因为它产生的统计模式是传统计算机难以产生的(Biamonte et al. ,2017; Deutsch,1985; Feynman,2018)。边缘计算是另一种方式,它利用物联网(例如端点、网关、智能手表、智能手机、传感器等) ,嵌入人工智能技术,在本地处理数据而不传输太多数据,这可以减少对网络的依赖,增加人工智能的弹性和实用性(李等人,2018)。

个别研究人员可以通过将 gpu 组装到计算机中来设置他们的工作站。研究小组和机构可以购买由专业人士配置的更强大的预制服务器。如果实验能持续很长时间,自我维护工作站的成本就会降低。然而,维护人员需要建立和维护钻机。他们需要找到合适的 GPU、兼容的主板、 CPU 和内存,并修复观察到的任何问题,如 GPU 崩溃、内存泄漏、磁盘故障等。这个解决方案建议有服务器经验的人使用。

5.2. 网络基础设施

处理大规模高分辨率地球数据集需要超出个人计算机甚至自建数字图书馆工作站能力的大规模计算能力。拥有强大计算能力的私营公司已经开发了一些公共资讯网路基础设施作为最终解决方案。一个典型的例子是 Google Earth Engine (Gorelick et al. ,2017) ,它已经整理了 pb 级别的公开可用 RS 图像和模拟数据档案。它为并行处理地理空间数据优化了谷歌的计算基础设施。利用 Javascript 和 Python 中基本的 ML 算法提供的 api,GEE 为基于 rs 的地球科学研究的许多突破提供了动力,如自然资源管理、气候变化监测、灾害预测和评估(Amani 等人,2020; Campos-Taberner 等人,2018; Tamiminia 等人,2020)。

为了在 GEE 上实践人工智能技术,Colab (Bisong,2019) ,一个类似于 jupyter 笔记本的交互式编码环境,可以用于编写深层神经网络或其他复杂的机器学习模型。Colab 允许人们在 web 浏览器中编写和执行 Python,不需要任何配置,并且易于共享。有了 Colab,地球科学家现在可以处理大量的数据集,建立复杂的人工智能模型,以较低的成本训练它们,并与其他人无缝地分享结果。

作为 GEE 生态系统的主要竞争对手,亚马逊正在根据其 AWS (Amazon Web Service)生态系统开发人工智能能力。SageMaker (Januschowski 等人,2018)是他们最近的产品,并宣传为一个托管 web 服务,以更快地创建和部署机器学习模型。SageMaker 可以被认为是一个自动化解决方案的科学家谁是较少的技术和希望少编码。

5.3. 软件

推荐的操作系统是 linux 派生的系统,它们具有积极的长期技术支持。目前,Ubuntu 是人工智能的领头羊,有许多内置的依赖项。用户安装 GPU 驱动程序很容易,比如 CUDA (一种允许为 NVIDIA GPU 编码的软件)和 Python 包管理器(即 Conda、 Pip)可以方便包的安装。为了与远程计算机交互,强烈推荐使用 Jupyter 服务器(Kluyver et al. ,2016)(使用 notebook、 Lab 或 Hub)。它允许地球科学家创建和共享他们的实验,从代码到一个文件中的完整结果报告,以简化他们的工作,使更多的生产力和更容易的协作。

Python 在人工智能领域的主导地位很大程度上归功于其蓬勃发展、开放访问和支持协作的图书馆生态系统。表2列出了一些广泛使用的开放源码库。一般来说,这些工具可以分为六种类型: DL、非 DL ML、非 ML AI、数据操作、并行计算和可视化。这些工具在最近的科学突破中扮演着重要角色,例如,绘制第一张黑洞照片(Numpy,2020年) ,证实引力波的存在(Biwer et al. ,2019年) ,在火星上驾驶直升机的任务(Vaughan-Nichols,2021年)等等。许多工具用于处理地球科学数据集,如 Rasterio、 Shapely、 Geopandas、 ESMPy,这些工具使得地球科学与人工智能技术之间的结合成为可能。

表2. 地球人工智能的 Python 生态系统。

6. 挑战与机遇

这一节强调了一些主要的挑战和潜在的机会(如图2所示)。

图 挑战与机遇。

6.1. 模型开发

模型开发是为一个或多个训练数据集选择一个合适的模型或定制一个耦合模型的过程。候选现成模型包括单个模型,如神经网络、支持向量机和决策树,以及集成模型,如 RF、 XGBoost 和大多数 DL 模型。寻找最佳模型或耦合新模型是耗时的,而且可能永远不会令人满意,这就为 AutoML 创造了强大的需求,不需要专家知识或手动调优。例如,在假设 ML 算法的性能依赖于数据的情况下,OptiML、 AutoScikit-learn 和 AutoWeka 使用贝叶斯参数优化来预测模型在给定数据集上的性能。例如,在自动尝试了几个模型之后,OptiML 可以学习一个回归模型来预测其他尚未测试的模型的性能,从而节省时间。Auto-sklearn 的超参数调整还使用了贝叶斯优化、元学习和集成构造。然而,严重的问题仍然没有得到解决。首先,用于选择模型的最佳度量应该根据不同的用例而有所不同。其次,在大数据训练方面,交叉验证分析技术表现不佳。第三,精确性的表现不应该是唯一的因素: 稳定性、可靠性、计算代价和可推广性都非常重要,在寻求解决方案时常常被忽视。

一个好的 AutoML 解决方案应该自动生成一个模型来解决场景适配、大数据和除了准确性能之外的综合性指标。机器学习专家在产业界和学术界的短缺已经得到了广泛的认可,然而高技能的机器学习专家却很少见,也很难培养。AutoML 可以弥补这一差距,并可以在人工智能就业市场上获得许多新的机会,包括地球科学。有了 AutoML,模型选择将变得简单而快速,并且围绕机器学习模型购物的障碍将大大减少。以人工智能为基础的增值服务将不再是科技巨头的特权。小型团体也将能够快速地将实体模型组合在一起,模拟真实世界,提取可操作的信息,并指导气候和环境政策的制定。新的大门将为下一代地球人工智能打开。

6.2. 数据准备

地球人工智能项目的大部分时间通常花在数据准备上。在地球科学中获取一个大规模的标记数据集是非常昂贵的,因为标记通常是由内部劳动手工完成。一个流行的策略是使用像亚马逊土耳其机器人这样的服务众包手工标记任务。尽管需要分析的数据数量空前庞大,但缺乏公开可用的策划和标记的训练数据是地球科学中实现高效人工智能的障碍(Maskey 等人,2018; Reichstein 等人,2019)。标准化的培训和测试数据集在其他学科(如图像网络、 MNIST)掀起了人工智能革命,然而,捕捉地球科学数据多样性的培训数据集正在开发中,并且在它们存在的地方被大量使用。例如,Spacenet,一个集成了卫星地图、算法和工具的在线中心,为机器学习提供了带有标签信息的 RS 数据。这使得缺乏经验的建模人员无法完成定位、集成和标记完全不同的数据集的耗时且困难的任务。其他时候,地球科学家必须走出他们的领域去训练他们的模型。现在,激励结构使得科学家们专注于“建立一个更好的算法”,而不是精简数据集(Hutchinson et al. 2021)。

随着越来越多的数据生产者、存储库和出版商响应 FAIR 数据的号召,社区开发的数据标准(Sansone et al. 2019)正在没有国际标准的地方得到发展。OGC 标准由国际成员制定,旨在使地理空间信息和服务更加公平。在地球和环境科学领域有一个创建标准化和基准数据集库的运动(ESIP,2021)。这些基准数据集可以用来有效地评估新开发的算法与通用标准数据集上已有模型相比的性能。基准数据集的标准化可以通过为建模者提供随时可用的数据来减轻数据管理负担(Reichstein et al. ,2019)。

6.3. 优化培训

对于许多初学者来说,调整人工智能模型是一个必不可少但痛苦的经历步骤。这是一个调整超参数使代价函数最小化的过程。优化器是改变属性的算法,比如权重和学习率,以降低损失。常用的优化器包括梯度下降法、 Nesterov 的加速梯度、自适应矩估计、 AdaDelta 等。基于梯度的优化器的一个共同的挑战是,大多数发现的最小点是局部极小点。随着训练次数的增加,梯度越来越小,学习速率越来越大,越来越难以找到正确的最优解,因此很难找到全局最优解。另一种方法是将进化理论应用于机器学习的遗传算法。这个过程重复了许多次,只有最好的模型才能在过程结束时存活下来。所有的优化方法都存在缺陷。没有一个大小为所有的方法可以适应任何数据集,并加快学习达到最低速度更快。一个理想的最终解决方案应该使训练在更少的迭代/时代内快速收敛到损失最小的点。梯度消失问题(梯度太小,无法在下一个循环中更新权重)应该得到很好的解决。

6.4. 并行计算

并行计算提高了人工智能的训练和运行效率,是地球人工智能中一个非常有价值的工具。第一个原因是由于遥感技术和地球数值模拟的进步,可用地球数据的规模不断增加。例如,现有的气候数据总量可能呈指数增长,从2020年的100 PB 增加到2030年的350 PB (Overpeck 等人,2011)。第二个原因是人工智能模型越来越复杂。机器学习模型,特别是 DL 模型的发展,要达到预测精度越来越复杂。例如,来自微软的图灵自然语言生成模型有170亿个参数。由于这两个原因,一个复杂的人工智能模型需要几周甚至几个月的时间来训练而不需要并行化(Johnsirani Venkatesan et al. ,2019)。

对于如何从不同的角度支持并行机器学习的研究已经有了很多的努力。(Verbraeken et al. ,2020; Wang et al. ,2020b).下面我们总结了机器学习并行化的三个机会,第一个是所有机器学习任务的一般规则,第二个和第三个是地球人工智能所独有的。第一个机会是开发一个结合并行超参数调整和并行深度模型训练的统一系统的要求。目前,这两个任务通常是通过不同的系统完成的,例如,Spark 用于并行超参数调整和 Tensorflow 支持并行 DL。仍然需要一种更加一体化的方式/平台,有效地支持两者。第二个机会是支持在基于阵列的地球系统数据集(包括 HDF 和 NetCDF)之上进行平行学习。Xarray 和 Dask 是最近社区在高效访问/处理 HDF 和 NetCDF 数据集方面的努力。但是,如何将这些技术与机器/数字图书馆集成在一起,目前还不清楚。最后一个机会是对时空数据的并行机器学习支持,这是地球系统数据集的典型代表。与传统的独立同分布(IID)数据集不同,对时空数据进行分区将打破其时空相关。因此,需要特别注意与时空地球数据的并行 ML。

6.5. 可解释的人工智能

与基本的或树型结构的机器学习模型(如线性回归、 DT、 Bayesian、 RF)相比,复杂的机器学习模型(如 DNN、 SVM)无法为其结果提供自解释的理论。许多地球科学家呼吁在机器学习模型中加入解释,以促进对机器学习模型的理解并建立用户信任。可解释人工智能(Explainable AI,XAI)工具提供了一种方法,通过“解释”来研究原始的“黑盒子”模型,提供了对模型特征和预测之间关系的定性理解。这个过程回答了关于模型的问题,比如哪些特性是最重要的,以及为什么有些特性比其他特性更容易对决策负责。它还提供了洞察力,允许对模型进行有意义的改变。一个常见的可解释方法的概述可以在 Molnar 等人(2020)中找到。选择 XAI 方法的决定性因素可能包括对模型不可知或模型特定方法的需求、所需解释的范围以及时空或计算约束。

当前 XAI 方法的局限性包括它们不能告诉训练数据集中的问题,而且它们专注于 RGB 图像,对高维图像用户友好(Krishnan,2019)。尽管存在这些问题,但 XAI 为改进地球科学模型提供了机会。XAI 可以揭示在数值模型中创建错误的工件。

6.6. 泛化

传统的综合目标是使训练好的人工智能模型在测试数据上表现得更好。然而,它变得复杂,因为地球数据集是巨大的,而训练数据集只是很小的一部分。在地球人工智能中,它不再是简单地在过分合适和不合适之间找到一个平衡点: 在一个时间在一个地方训练的模型可能不适用于另一个时间在另一个地方。然而,一个常见的人工智能失败的根本原因是,当前的经验训练的模型不能很好地概括不同分布的新样本。寻找一个好的泛化策略,使模型超越训练数据集是人工智能应用于地球科学的主要瓶颈。发展中的泛化理论领域对于解决这些问题具有广阔的前景。

人工智能泛化已经被研究了几十年。奥卡姆剃刀原理(Ariew,1976)证明了一个模型越不复杂,一个好的经验结果就越有可能不仅仅是由于所选样本的特殊性。训练样本在学习不足和学习过度之间的界限是模糊的。检测欠拟合或过拟合的经典方法之一是将样本分成两部分: 训练子集和检测子集。在训练的每次迭代过程中,程序将在测试子集上运行训练好的模型,计算原始训练池外样本的预测精度。如果测试数据的准确度开始逐渐降低,则意味着模型过拟合。相反,如果测试精度没有达到峰值,则说明模型仍然不够拟合。需要一种方法来找到偏差(欠拟合)和方差(过拟合)之间的平衡。一个常见的解决方案是使用交叉验证来确保没有适当的巧合训练偏见。正则化是另一种使学习算法更加通用化的技术。该方法着重于减少噪声样本对数据集的影响,因为噪声样本不能反映数据集的真实特征,而是随机误差和重合。它不鼓励训练一个更复杂的模型来降低不良泛化的风险。辍学是最近提出的方法,致力于神经网络随机删除单位,以迫使后续层依赖于所有连接到以前的层。然而,没有一种方法可以避免密集的无限调整,以优化模型具有更好的泛化能力。

人工智能的一个有吸引力的特点是,当一个模型被提供更大的数据集时,模型的性能会得到改善。然而,它最终将达到一些限制所提出的模型容量是有能力的学习。许多数字图书馆模型是过参数化的,在学习了更多的噪声样本之后可能会出现偏差。解决泛化问题将使地球系统的人工智能模型在长期运行中更加稳定和抗噪声。未来的解决方案是运行一个自动算法,通过判断采样的质量来自动调整采样。那些可能破坏模型稳定的样本在传播过程中应该自动得到较少的考虑,并且应该减少它们对未来更新的影响。

6.7. 不确定性

机器学习模型基本上是由一组规则组成的算法,包括随机数的生成和确定模型参数的优化。因此,在同一数据集上开发的机器学习模型几乎总是不同的。机器学习应用的不确定性是来自两个来源的不确定性的组合: 数据和知识。与真实数据固有噪音相关的不确定性也被称为射幸不确定性,它不是由模型引起的,而是不可约的(h ü llermeier 和 Waegeman,2021)。知识和数据不足引起的不确定性也称为认知不确定性,这种不确定性往往是模型训练和预测中数据不匹配的结果。

为了量化射幸性不确定性,我们需要估计机器学习模型所有输入数据的不确定性,并了解不确定性是如何通过模型传播的。这对 DL 模型来说是一个挑战,因为模型的复杂性很高。DL 模型输入数据的一个小的排列可以导致最终模型输出的显著变化。认知不确定性与一般化问题有关。大多数机器学习应用程序都是基于一组特定的数据开发的,因此模型可能不容易推广到原始数据集未涵盖的其他条件。由于在原始数据集中缺乏表示,因此准确地量化与综合相关的不确定性是非常具有挑战性的。

精确的不确定性量化对于增强用户的信任和提高机器学习应用程序的可用性至关重要。为了解决不确定性量化问题,人们提出了许多统计和计算方法。最常用的方法可以分为两类: 贝叶斯统计量和集合统计量。贝叶斯 UQ 方法专注于近似给定训练数据集的后验概率。集成 UQ 意味着训练多个模型,计算它们的合成预测(例如,平均值) ,并使用偏差测量不确定性。近年来,针对 UQ 的蒙特卡罗(MC)模拟(Ferrenberg 和 Swendsen,1989)出现了不同的变化,如 MC 辍学(Gal,2016) ,以更有效地描述预测不确定性。

6.8. 与物理模型的结合

基于已知物理定律的模型驱动解决方案一直是应用科学的主要趋势。从进行密度泛函理论(DFT)计算到预测分子特性,再到利用大气环流模型研究气候,数值模拟在地球系统科学中占据主导地位(Han and Zhang,2020)。然而,在开发有效和准确的模型方面仍然存在困难。与传统的基于物理的地球科学模型需要高浮点运算速度和大容量 CPU 内核不同,机器学习,特别是 DL,可以通过简单地使用 GPU,或者像 TPU 这样的定制处理单元来实现与大容量 CPU 堆栈相同的处理效果。目前,解决这个问题有两个主要趋势: 1)在传统建模框架中部分使用 AI 或 AI 平台(如 Tensorflow 和 PyTorch) ,以提高计算效率和性能准确性(Xu 等人,2020) ; 2)将物理定律纳入基于 ml 的方法,以提高数据驱动模型的可解释性(Raissi 等人,2020)。在这两种情况下,机器学习为近似复杂函数的建模能力提供了前所未有的机遇。基于物理学的机器学习模型的出现(Kashinath 等人,2021)强调了推进前沿算法的重要性。

6.9. 可溯源性、可再生性、可复制性和可重用性

地球人工智能研究的四个广泛且相互关联的关注点包括:

  • 溯源: 培训数据、人工智能模型、软件和硬件起源于何处,以及在报告发现之前经历了哪些数据转换?
  • 可重复性: 一个独立方能够使用相同的数据和算法复制精确的人工智能工作流程和报告结果吗?
  • 可复制性: 一个独立的政党能够对相似(但不一定相同)的数据进行相似(但不一定相同)的 ML 分析,并得出相同的结论吗?
  • 可重用性: 训练有素的人工智能模型应用于新数据或其他新情况有多容易?

地球科学家已经提出标准来记录数据和科学工作流程的起源(Sun 等人,2020a) ,包括 ISO 19115:2003和 ISO 19115-2:2009,开放起源模型(Moreau 等人,2008) ,开放地理空间协会数据服务标准,和 W3C 的起源本体论(Hills 等人,2015; Lebo 等人,2013; Sun 等人,2013; tilal 等人,2013; Zhang 等人,2020)。

像 Docker,Helm,Conda/Anaconda-project,Prov,MetaClip 和 Geoweaver 这样的软件可以被用来记录人工智能工作流程,这样它就可以被用于以后的检索,以理解,复制,再生产和重用训练过的人工智能模型。随着地球科学家越来越多地接受开放数据和管理工作流平台,关于起源、可重用性、可复制性和可再现性的话题已经得到了越来越多的关注(Gil 等人,2019; 凯德伦等人,2021)。起源对于公众理解和信任地球人工智能模型至关重要,而人工智能的标准起源框架将是解决这些问题的理想解决方案。可重用性的另一个挑战是确保用于培训和评估算法的数据是可公开访问的(nelon,2012; Tenopir et al. ,2020)。作为迈向更开放数据的一步,研究人员应该将他们的数据存储在一个长期的存储库中(Duerr et al. ,2018)。许多这些存储库提供模板和工具,以便能够提交描述正在存档的数据的元数据,人工智能从业人员可能会受益于关于哪些文件最需要提交给长期存储库的指导方针。

6.10. 全栈工作流自动化

人工智能工程是一门包含许多技术、算法、工具、库的综合性学科,其产品流程由一系列链接组成,从硬件到软件,从原始数据库到可操作的信息传播,从 web 服务到端点软件。手动管理所有部分是不现实的。需要自动化所有的处理步骤,以使地球人工智能在现实世界的场景中具有实用性。然而,地球人工智能工作流的全栈自动化仍处于开发阶段。为了保持人工智能的采用和规模,地球科学界需要一种更好的方式来全面部署和管理已部署的机器学习模型的生命周期。

Mldevops (mldevops)是将一个实验性的 ML 模型部署到生产 web 系统中的过程。它管理产品级 ML 模型的部署、监视、管理和治理。对于开源软件开发人员来说,有很多机会来接手这项任务。NASA 地球社区中正在进行的项目,如 Geoweaver (Sun 等人,2020b)已经意识到了这一挑战,并且正在努力提供实用的稳定的软件作为解决方案。

运行高效和高效的地球人工智能模型需要各种实体和资源的协作,涉及各种程序、脚本、图书馆、软件和平台,从数据准备、消化不良、培训、验证、测试、部署和生产的自动化。它需要构建一个工作流,这意味着一个逻辑链式的多进程流来完成一个大任务。工作流编排可以以多种方式进行,例如,编写 Python 笔记本、 Shell 脚本或使用工作流管理软件如 Cylc。工作流的基本组件是类似的。所有的工作流都有原子过程以及它们之间的连接。一旦启动工作流,所有原子过程都将自动执行,而不需要询问,这就是所谓的工作流自动化。有许多工作流管理软件(WfMS)正在开发以实现自动化,例如 Apache Airflow、 Cylc、 Galaxy、 Pegasus-WMS、 Geoweaver (Sun 等人,2020b)等等。这些工作流管理系统不仅可以自动化这一过程,而且可以记录来源,从而提高地球人工智能发现的可复制性和可重复性。

6.11. AI 伦理学

地球人工智能被设计用来保护我们,它具有预测地球未来的无形的强大能力,能够提前导航自然灾害和资源,以拯救人类和保护环境。然而,能量是有限的,它不能平等地拯救每个人,例如,在地质灾害或破坏性事件中。如果地球人工智能错误地估计了情况,忽略了一个区域/群体,低估了危害,导致更多的死亡或更大的破坏?地球人工智能是智能的,但仍然是一个没有生命的系统,它不是一个法律实体。然而,它的决定影响着社会,它表现在一定程度的自我意志上。

关于人工智能在使用过程中所引起的伦理问题有大量的研究(jopin 等人,2019)。批评家们研究了文化偏见在算法不平等中扮演的角色(Eubanks,2018)和人工智能系统如何压迫少数民族并加强现有的歧视之间的关系(Buolamwini 和 Gebru,2018)。我们可以预见很多关于地球人工智能伦理的法律法规。在这里,我们概述了在地球和环境科学中,包括更多的开放数据集和公正的算法,通向更道德的人工智能的许多途径中的几条。工程师应该与社会科学家、伦理学家和哲学家合作,发展与人工智能伦理相关的逻辑,这些科学家一直在警务、法律、金融等领域研究人工智能的社会影响。这包括为机器学习研究人员制定一个指导方针,使其不仅作为一个哲学项目,而且作为一个实用的项目,在这个项目中,数据的收集和特定模型的使用超过其他对生态系统和人类有直接影响。最后但并非最不重要的一点,我们认为,为了在地球科学中实现人工智能中的公平和道德运动,有必要将一个人对任何机器学习或人工智能应用的应用传达给它所影响的更广泛的社区(例如,如果一种自动化的开发土地覆盖图的方法将直接影响土著土地的表现)。

6.12. 业务化管理

业务化的人工智能服务不能简单地由一个科学家或一个小型地球研究小组来完成。AI 产品部署后需要维护人员和客户服务。一个大公司可以生产大量的业务和日志数据。由于技术的快速发展,向人工智能行动的过渡和维持变得复杂起来。然而,DevOps 实践强调开发人员和操作之间的密切协调,可以减轻这些困难,甚至在某些情况下提供有用的 AI 反馈从操作到模型演进。另一个可能有效的技术是内部能力建设,例如培训操作人员使用人工智能技术的基础知识,以便他们能够更好地识别问题并为客户提供支持。

7. 总结

本文以人工智能在地球科学中的应用为重点,综述了人工智能的前沿技术和研究进展。地球人工智能理论和基础设施的突破将把地球科学带入下一个阶段: 地球人工智能。地球科学界必须赶上观测数据集爆炸的步伐,以可承受的成本和足够的准确性迅速建立可用的人工智能模型。地球人工智能的研究和开发仍处于初级阶段,从数据到模型到操作的所有重大挑战都可以在从学术界到政府和工业界的所有部门中获得无数机会。地球人工智能的未来是光明的,对整个人类社会和地球系统极为有益,它应该将我们的文明推进到其下一个史诗般的阶段,并将地球转变成一个更可持续、更健康的星球。

来源以及引用:

Ziheng Sun, Laura Sandoval, Robert Crystal-Ornelas, S. Mostafa Mousavi, Jinbo Wang, Cindy Lin, Nicoleta Cristea, Daniel Tong, Wendy Hawley Carande, Xiaogang Ma, Yuhan Rao, James A. Bednar, Amanda Tan, Jianwu Wang, Sanjay Purushotham, Thomas E. Gill, Julien Chastang, Daniel Howard, Benjamin Holt, Chandana Gangodagamage, Peisheng Zhao, Pablo Rivas, Zachary Chester, Javier Orduz, Aji John, A review of Earth Artificial Intelligence,Computers & Geosciences,Volume 159,2022,105034,ISSN 0098-3004,https://doi.org/10.1016/j.cageo.2022.105034.

封面:Twitter/NASA

翻译支撑:DeepL、彩云小译、GT4T

声明:欢迎转载、转发本号原创内容,可留言区留言或者后台联系小编进行授权。气象学家公众号转载信息旨在传播交流,其内容由作者负责,不代表本号观点。文中部分图片来源于网络,如涉及作品内容、版权和其他问题,请后台联系小编处理。

0 人点赞