Title:Deep learning and process understanding fordata-driven Earth system science
作者:Markus reichstein, Gustau camps-valls, Bjorn stevens, Martin Jung, JoachimDenzler, Nuno carvalhais, and Prabhat
来源:Nature,volume 566, pages195–204(2019)
摘要
随着地球科学数据的日渐增加,机器学习方法越来越多地被用来提取其中的模式和内涵信息。但是,当系统受空间或者时间信息主导时,当前的机器学习方法也许并不是最优的。本文不讨论如何改进传统机器学习方法,而是讨论这些空间或者时间信息是如何被使用而成为深度学习的一部分,从而对地球系统科学问题有更深层次的理解,如改善季节预报的预测效果和跨多个时间尺度的远程空间关联建模等。下一步我们将着眼于混合建模方法,将物理过程模型与多用途的基于数据驱动的机器学习方法结合起来。
引言
一直以来,人类都在尝试预测和理解世界,而取得更好的预测效果的能力已经在多个情况(天气,疾病或者金融市场)下产生了竞争优势。预测工具随着时间的推移而发生着本质的变化,从古希腊哲学推断到非科学的中世纪方法(如占卜),再到现在的集假设检验、理论发展和由统计与物理关系支撑的计算机建模于一体的科学方法。地球科学中成功的例子如天气预报,借助理论的发展、计算能力的提升和观测系统的完善已经有了长足的进步,能将大量的数据同化入模型系统中。然而,我们只能精确预测日尺度上的天气变化,而非月尺度上。季节尺度上的气象预测、预报极端天气如洪水或者火灾以及长期的气候预测仍然面临着挑战。对于预测生物圈的动态,这个挑战尤甚,因为生物圈中充斥着成长与再生,并且被强烈的随机扰动(比如火灾、滑坡)控制着。在过去几十年中,这些问题并没有取得多大进展。
与此同时,我们积累了大量的地球系统观测数据,存储总量超过数十PB,传输速率迅速增加,日增长量超过上百TB。这些数据来自于许多传感器,这些传感器测量状态、通量、密度和时空信息,代表15个或更多数量级的时间和空间量级。它们包括距离地球几米到几百公里的遥感数据,以及地表、地下以及大气层内的现场观测数据(越来越多的数据来自主动观测传感器),其中许多还得到民间科学观测的补充。模式等物理模型产生的数据量也非常巨大,例如,CMIP(Climate Model Intercomparison Project)项目产生的CMIP-5数据集是定期气候评估的科学基础,数据集大小超过3PB,而下一代CMIP-6数据集的大小预计将达到30PB。来自模型的数据共享了观察数据的许多挑战和统计特性,包括许多形式的不确定性。总之,地球系统数据是具有“四V”特征的典型“大数据”:体积(数据大小)、速度、变化和准确性(见图1)。一个关键的挑战是从这些大数据中提取可解释的信息和知识。
图1. 地球科学背景下的大数据挑战。
数据大小现在超过100PB,并且呈指数增长(向右逐渐缩小表示数据量减小),变化速度每年超过5PB,数据采集频率高达10Hz或更高。后处理和版本控制是常见的挑战。从局部水平到全球水平,数据源可以是一维到四维。地球有各种观测系统,从遥感到现场观测。数据的不确定性可能源于观测误差或概念上的不一致。
总而言之,我们收集和产生数据的能力远远超过合理数据同化的能力,更不用说理解数据。过去几十年,预测能力并未随着可用数据的增长而增长。为了充分利用地球系统数据的爆炸性增长和多样性,我们在未来几年将面临两项主要任务:(1)从海量数据中提取知识;(2)发展模型从而比传统数据数据同化方法学习到更多的知识,同时符合我们对不断发展的自然规律的理解。
前所未有的海量数据,结合快速提升的计算能力,以及统计建模和机器学习的最新进展,为扩展我们对地球系统的认知提供了令人兴奋的新机会。特别是,许多工具可以从机器学习和人工智能领域获得,但它们需要进一步开发以满足地球科学问题求解的需要。地球系统科学提供了新的机遇,挑战和方法要求,特别是在时空背景和不确定性等最新的研究重点方面(见附录1“术语定义”,更完整的词汇表参见https://developers.google.com/machine-learning/glossary/和http://www.wildml.com/deep-learning-glossary/)。
在接下来的部分中,我们将回顾地球科学背景下机器学习的发展,并强调深度学习自动提取抽象特征的能力,有可能克服迄今为止阻碍机器学习更广泛应用的许多限制。我们进一步列出了将机器学习与物理建模相结合,可以采用的最有希望、同时也富有挑战性的方法。
最先进的地球科学中的机器学习
当前,机器学习是多个理论驱动和业务化地球科学处理方案的组成部分,解决了多个大气层、陆地表面和海洋相关的问题,并在过去十年间与可用数据量的增加同步发展。标志性事件发生在30多年前,通过高分辨率卫星数据和神经网络进行土地覆盖和云层的成功分类。随着机器学习方法的快速发展(例如,核方法或随机森林方法),众多机器学习方法被应用于地球科学和遥感问题研究,当数据的特点与机器学习方法匹配时,这些机器学习方法在应用中的结果才是可用的。因此,机器学习被广泛应用于地球科学领域的分类、变化检测和异常检测等问题上。在过去几年时间里,地球科学开始使用深度学习来更好地表示数据中的空间和时间结构特征,这些特征通常是传统机器学习难以提取的。(如表1所示)。
表1.地球科学任务的传统方法和深度学习方法
分析任务 | 科学任务 | 传统方法 | 传统方法的局限性 | 紧急或潜在的方法 |
---|---|---|---|---|
分类和异常检测 | 寻找极端天气模式 | 多变量,基于阈值的检测 | 启发式方法,不能长期适用 | 监督或者半监督的卷积神经网络 |
土地使用和变化检测 | 逐像素光谱分类 | 仅适用或者没有使用浅层空间背景 | 卷积神经网络 | |
回归 | 根据大气条件预测通量 | 随机森林,核方法,前馈神经网络 | 没有考虑记忆和滞后效应 | 循环神经网络,长短期记忆网络 |
根据大气条件预测植被特性 | 半经验算法(温度总和,水分缺失量) | 在函数形式和动态假设方面具有规定性 | 循环神经网络,可能带有空间背景信息 | |
预测未播种集水区的河流径流 | 手动统计地形特征的过程模型或统计模型 | 空间背景的考虑限于手工设计特征 | 卷积神经网络和循环神经网络的结合 | |
状态预测 | 降水临近预报 | 数据同化物理模式 | 分辨率引起的计算限制,数据仅用于更新状态 | 具有短程空间背景卷积LSTM网络 |
降尺度和偏差订正预报 | 动力模式和统计方法 | 计算形式,主观特征选取 | 卷积网络,条件对抗生成网络 | |
季节性预报 | 以数据作为初始条件的物理模式 | 完全依赖物理模型,现在的技巧相对较弱 | 长程空间背景的卷积LSTM网络 | |
传输建模 | 传输的物理模式 | 完全依赖物理模型,计算受限 | 混合物理-卷积网络模型 |
机器学习成功应用的另一类问题是回归问题。土壤测绘是一个典型例子,土壤性质和协变量的测量存在于空间稀疏分布的点,而“随机森林”是一种流行且有效的机器学习方法,可用于预测土壤性质或土壤类型的空间密度估计。在过去的十年中,机器学习在局部和全球尺度的遥感反射率的生物地球物理参数的回归估计中取得了显著的成果。这些方法强调空间预测,即预测在观察时间段内相对静态的属性。
然而,地球系统的有趣之处在于它不是静态的,而是动态变化的。机器学习回归技术也被用于通过将时间变化的特征映射到陆地、海洋和大气域中的时间变化的目标变量,从而来研究这些动态变化。由于无法在任何地方观察到诸如陆地—大气或海洋—大气碳吸收等变量,因此通过建立将气候和遥感协变量与目标变量相关联的模型,从点观测中估算大陆或全球的总量是一个挑战。在这种情况下,机器学习方法比以前的机械或半经验建模方法更加强大和灵活。例如,一个具有一个隐藏层的人工神经网络能够滤除噪声,预测二氧化碳(CO2)通量的昼夜和季节变化,并提取模式(例如在根部生长期间春季呼吸增加,这在以前是未量化的,在碳循环模型中并未被良好建模)。随后的进一步发展使我们能够以纯数据驱动的方式量化全球陆地光合作用和水的蒸发。这种机器学习预测通量的空间、季节、年度或年代变化甚至被用作物理地表和气候模式评估的重要基准。同样,海洋CO2浓度和通量已通过神经网络进行了时空映射,其中分类和回归方法已结合起来,用于数据分层和预测。最近,随机森林方法被用于预测降水的时空变化。总的来说,我们得出结论是许多有影响力的机器学习方法已经应用于地球系统科学的所有重要子领域,并且越来越多地被整合到操作方案中并被用于发现模式、改善我们的理解、评估综合物理模型的能力。
尽管机器学习在地球科学领域取得了不少研究成果,但其缺点和局限性阻碍了其更广泛的使用和产生影响。通过最佳实践和专家干预,应避免一些陷阱,例如朴素推断、抽样或其他数据偏差、对混杂因素的忽视、统计关联作为因果关系的解释,或多重假设检验('P-fishing')的基本缺陷。更根本的是,目前应用的机器学习方法存在固有的局限性。正是在这个领域,深度学习技术有望实现突破。
经典机器学习方法在特定领域通过人工提取的特征以解释时间或空间的依赖性(例如,从日时间序列中计算累积降水量),但很少详尽地利用时空相关性。例如,在“海洋—大气”或“陆地—大气”CO2通量预测中,一般将瞬时局部环境条件(例如辐射,温度和湿度)与瞬时通量进行映射。实际上,在某个时间点和空间的过程,几乎总是受到系统状态的附加影响,这些影响通常没有被很好地被观察到,因此不能用于预测。但是,先前的时间步长和相邻的网格单元包含着有关系统状态的隐藏信息(例如,长时间没有降雨加上持续的晴天意味着干旱)。空间和时间背景高度相关的一个例子是火灾发生区域的预测和诸如燃烧区域和痕量气体排放的特征。火灾的发生和蔓延不仅取决于瞬时气候驱动因素和点火源(如人类,闪电或两者),还取决于状态变量,例如可用燃料的状态和数量。火势蔓延,因此燃烧区域不仅取决于每个像素的局部条件,还取决于燃料的空间布置和连通性,包括湿度、地形特性、风速和方向等。类似地,将某种大气情况分类为飓风或热带风暴需要了解空间背景,例如由像素,其值和拓扑结构构成的风暴几何结构。例如,检测对称流和可见的台风眼对于检测飓风和评估其强度很重要,而这不是仅由局部的单像素值确定。
当然,时间上的动态属性('记忆效应')也可以由机器学习中的人工设计和特定领域的特征来表示。例如,用于预测植被物候期的日温度累积和标准化降水指数,它总结了过去几个月的降水异常,作为干旱状态的气象指标。通常,这些方法只考虑单个变量中的记忆,忽略了几个变量的交互影响,尽管存在例外。
机器学习也可以使用人工设计的特征,例如地形和拓扑结构或卫星的纹理特征图像,以结合空间背景。这与之前在计算视觉中的方法类似,其中对象通常由描述边缘、纹理、形状和颜色的一组特征来表征。然后将这些特征输入标准机器学习算法,用于图像中对象的定位、分类或检测。几十年来,在遥感图像分类中已经采用了类似的方法。人工设计的特征既有优点(解释性驱动),也有缺点(繁琐、临时的过程、可能非最佳特征),但这些特征肯定适用于限制和主观选择的问题,而非广泛和通用但仍然有效和重要的方法。然而,深度学习的新发展不再限制我们只采用这些方法。
深度学习在地球系统科学领域的机遇
在计算机视觉,语音识别和控制系统,以及相关的物理化学和生物学等科学领域,深度学习在时间序列和具有空间背景的数据建模方面取得了显著成就。当前,深度学习对地球科学问题的应用还处于起步阶段,但是在关键问题(分类,异常检测,回归,空间或时间依赖状态预测)中,有很多很出色的案例(见表1和图2)。两个最近的研究表明深度学习在极端天气方面得到了成功应用,例如在飓风检测方面。这些研究报告在数值天气预报模型输出中,成功应用深度学习架构来客观地提取空间特征,以定义和分类极端情况(例如,暴风雨,大气河)。这种方法可以在不使用主观人类注释或依赖预先设定风速或其他变量的阈值的前提下快速检测此类事件并预测模拟。尤其是这种方法可以使用事件的空间特征信息,例如典型的飓风螺旋。同样,对城市区域分类而言,自动提取多尺度遥感数据的特征极大地提高了分类精度(几乎总是大于95%)。
图2. 四个典型的深度学习应用实例(左侧)和它们可以应用到的地球科学问题(右侧)。
a. 图像中的目标识别联系利用相同的的卷积神经网络对气候模式数据进行极端天气分类。b. 超分辨率应用涉及到气候模式输出的统计降尺度。
c. 视频预测类似于对地球系统变量的短期预测。
d. 自然语言翻译与动态时间序列建模相关(参考文献[96]和参考文献[97]中的图11)。
虽然深度学习方法通常被划分为空间学习(例如,针对目标分类的卷积神经网络)和时间序列学习(例如,语音识别),但是人们对于两者的融合越来越感兴趣。一个典型的例子是视频和运动预测,这个问题与许多动态地球科学问题有着惊人的相似之处。在这个问题中,我们面临着多维结构的时间演变,例如有组织的沉淀对流,它主导着热带降雨和植被的分布,进而影响蒸发蒸腾和碳的流动。目前一些研究开始将卷积以及循环神经网络应用到地球科学问题中,例如降水临近预报。大气和海洋传输、火灾传播、土壤运动或植被动态的建模是时空动态过程中非常重要的例子,但是机器学习尚未应用到这些问题的研究中。
简而言之,经典深度学习应用程序处理的数据和地球科学数据之间的相似性,是将机器学习和地球科学融合的有力证据。图像类似于包含与照片中颜色三元组(RGB值)类比的特定变量的二维数据场,而视频可以看作一系列图像,因此可以类比为随时间演变的二维场。类似地,自然语言和语音信号具有与地球系统变量的动态时间序列的相同多分辨率特征。此外,分类、回归、异常检测、动态建模都是计算机视觉和地球科学中的典型问题。
深度学习在地球系统科学领域的挑战
上述的经典深度学习应用和地球科学应用惊人相似,但也存在很多的差异。例如,经典计算机视觉应用程序处理有三个通道的照片(红色、绿色、蓝色),而高光谱卫星图像扩展到数百个光谱通道远远超出可见范围,这通常会导致与传统照片不同的统计特性。另外变量的空间和其他相互依赖也违反了数据的独立同分布假设。此外,集成多传感器数据并非易事,因为不同传感器表现出不同的成像几何形状、时间空间分辨率、物理意义、内容和统计特征。卫星(多传感器)观测数据也会存在噪音、不确定性、缺失数据和偏差(通常是系统性的,由于存在云或雪、采集、存储和传输等带来的偏差)等问题。
此外,光谱、空间和时间维度也增加了计算难度。数据量正在增加,很快就会增加到在全球范围内每天需要处理PB数量级的数据。目前,气象机构每天需要近实时地处理非常高(32位,64位)精度的TB级的海量数据。进一步而言,典型的计算机视觉应用程序处理的图像尺寸为512×512像素,而中等分辨率(约1公里)的全球变量场的大小约为40,000×20,000像素,其大小是经典图像的三个数量级以上。
最后,与ImageNet(人类标记的数据库图像,带有标签,例如“猫”或“狗”)不同,带标签的数据量大的数据集在地球科学中并不常见,一方面是由于所涉及的数据集的大小,另一方面是由于标记数据集的困难。例如,确定图像描绘的猫比确定一个数据集是否反映干旱容易得多,因为干旱取决于强度并且可以根据收集和分析数据的方法而改变,并且没有足够的标签样本来训练机器学习系统。除了使用有限的训练集的挑战之外,地球科学问题往往不受限制,导致模型被认为具有高质量的模型(在训练甚至测试数据集中表现良好),但对于有效区域之外的情况和数据有很大偏差(外推问题),即使对于复杂的物理地球系统模型也是如此。总的来说,我们总结了深度学习应用在地球科学中的五大挑战,如下所述。
(1)可解释性
提高预测准确性很重要但还不够。解释和理解更加重要,解释的手段包括结果的可视化和结果分析。可解释性被认为是深度神经网络的潜在弱点,实现它是目前深度学习的焦点。该领域仍远未实现自我解释模型,也远未实现观察数据的因果关系发现。然而,我们应该注意到,鉴于地球系统模型的复杂性,现代地球系统模型在实践中往往也不容易追溯到它们的假设,这也限制了它们的可解释性。
(2)物理一致性
深度学习模型可以非常好的拟合观测,但是由于外推或观测偏差等原因,预测可能出现与物理规律的不一致或偏差。通过让模型学习地球系统的物理规则,整合领域知识和实现物理一致性,可以在观测系统之上提供非常强大的理论约束。
(3)复杂不确定数据
深度学习方法需要用于处理复杂的统计量、多输出、不同的噪声源和高维空间。新的学习局部邻域关系(即使是在不同的尺度上)和较长尺度关系的神经网络是当前迫切需要的,但是变量之间的确切因果关系并不清楚、亟待发现。建模的不确定性无疑是一个重要的方面,需要整合贝叶斯/概率推理的概念,直接处理这些不确定性(参见附录术语定义和参考文献52)。
(4)有限的标签数据
深度学习方法在利用相关的未标记信息的丰富性的同时,需要从少数标记的样本中学习。这些方法包括无监督密度建模、特征提取、半监督学习和领域自适应法[53](见附录术语定义)。
(5)计算需求
当前地球科学在高计算方面存在着巨大的技术挑战,其中一个典型的例子就是如何处理谷歌的地球引擎,该引擎可以支撑从森林砍伐到湖泊监测等实际问题,而且在将来会有跟进的深度学习应用。
因为这些挑战,深度学习在地球科学领域与传统的计算机视觉领域会有很大的差异,因为在计算机视觉领域,人工设计的特征是来源于对世界有一个清晰的认识(表面、边界的存在),其是将世界映射到二维图像上。成功处理的假设包括朗伯曲面假设(即强度不依赖于表面与光源之间的角度),这导致了经典的假设,即三维点随时间的观测强度恒定。此外,在大多数情况下,世界的变化(物体的运动)被建模为刚性转换,或者是由物理假设产生的、仅在局部有效的非刚性转换(例如在肿瘤切除前后对大脑结构的记录)。即使是计算机视觉中的复杂问题,也可以通过人工设计的特征来解决,这反映了来自同一世界知识的假设和期望。在地球科学和气候科学中,这种全球性的、普遍的知识仍然部分缺失,而这正是我们在研究中所寻求的(因此,这不能是一个假设)。所有的问题,从遥感图像的分割到某些变量的回归分析,都有一些已知是有效的或至少是良好的近似假设。然而,对过程的理解越差,用于建模的高质量人工特征就越少。因此,深度学习方法,特别是它们能从数据中找到很好的表现形式,为解决地球科学和气候研究问题提供了机会。
近期最有前途的应用包括短时预报(即对不久的将来进行预测,在气象学最长可达两个小时)及其应用、异常检测以及基于时空下文信息的分类(见表1中的示例)。长期愿景包括数据驱动的季节性预测、跨多个时间尺度的空间长期相关性建模,空间环境异常重要的空间动态建模 (例如,火灾),以及检测人类可能从未考虑过的变量之间关联(包括遥相关)等。
我们推断,深度学习将很快成为地球科学中分类和预测时空结构的主要方法。更具有挑战性的是,除了获得最佳预测之外,还要获得可解释性,并在考虑到物理和生物知识的同时,实现从数据中最大限度的学习模型。实现这一目标的一个有前景但在很大程度上未知的方法是机器学习与物理建模的集成,我们接下来将对此进行讨论。
与物理模型的集成
从历史上看,物理建模和机器学习常常被视为两个不同的领域,它们有着非常不同的科学范式(理论驱动与数据驱动)。然而,实际上这些方法是互补的,物理方法原则上是直接可解释的,并且提供了超越观测条件的外推潜力,而数据驱动方法在适应数据方面是高度灵活的,并且能够有意外的发现(惊喜)。这两种方法之间的协同作用得到了[56-58]的关注,体现在基准测试的初始化[59,60]和涌现约束等概念中[27,61,62]。
在这里,我们认为,机器学习以及地球科学中观测和模拟能力的进步,为以多种方式更紧密地集成模拟和数据科学方法提供了机会。从系统建模的角度来看,有五个潜在的协同作用点(见图3,其中编号的圆圈对应于下面的编号列表)。
图3. 物理模型和机器学习之间的联系。
这里描述了物理模型(例如,地球系统模型)的部分抽象。该模型由子模型组成;每个子模型都有参数和强迫变量作为输入并产生输出,这些输出可以输入(强迫)到另一个子模型。数据驱动的学习方法在各种情况下都是适用的,如圈起来的数字所示。例如,标记为2的圆圈表示混合模型。更多细节见正文。ML表示机器学习。
(1)改进参数化
如图3(圆圈1)所示,物理模型需要参数,但其中许多参数不容易从基本原理推导出来。机器学习可以学习参数化以最优的描述真相,这些真相是通过基本原理从详细的高分辨率模型中观察或生成的。例如,除了给地球系统模型中设定植被参数外,还可以从一组统计协变量中学习参数化,使得这些参数更动态、相互依赖以及上下文相关。水文领域已经采取了一种典型的方法,从几千个流域中学习环境变量(例如降水和地表坡度)到流域参数(例如平均、最小和最大流量)的映射,并在全球范围内应用于水文模型[63]。另一个全球大气建模的例子是从数据或高空分辨率模型中学习有效的粗尺度沉淀对流的物理参数(例如,对流过程中从云中沉淀出来的水的比例) [64,65](高分辨率模型过于昂贵,这就是为什么需要进行粗尺度参数化的原因)。这些学到的参数化可以更好地表示热带对流[66,67]。
(2)机器学习模型代替“物理子模型”
如图3(圆圈2)所示,如果一个子模型的公式是半经验的,函数形式没有理论基础(例如,生物过程),那么如果有足够数量的观测,这个子模型可以被机器学习模型所替代。这导致了一个混合模型,它结合了物理建模(理论基础、可解释)和机器学习(数据适应性)的优势。例如,我们可以将植物体内水分传输的物理(微分)扩散方程与机器学习结合起来,以解决人们对水传输电导的生物学调节知之甚少的问题。这导致了一个更“物理”的模型,它遵循公认的质量守恒定律和能量守恒定律,但它的调节(生物学)是灵活的,可以从数据中学到的。这些原理最近被用来有效地模拟海洋中水的运动,并具体预测海面温度。这里,运动场是通过深度神经网络学到的,然后通过对运动场所暗含的运动进行物理建模来更新热量和温度[68]。此外,一些大气科学家已经开始进行试验相关方法,以规避长期存在的基于物理的大气对流参数化偏差[65、69]。
如果在保持可解释性的同时估计物理模型和机器学习参数,特别是用机器学习方法替换多个子模型时,问题可能会变得更加复杂。在化学领域,这种方法已用于校准工作,并在生物化学反应器模型[70]中描述未知动力学速率的变化,同时保持质量平衡,虽然不那么复杂,但与水文和生物地球化学模型有许多相似之处。
(3)模型-观测失配分析
如图3(圆圈3)所示,假设没有观测偏差,物理模型与观测值的偏差可以认为是不完善的知识导致的模型误差。机器学习可以帮助识别、可视化和理解模型的错误模式,从而允许我们相应地修正模型输出。例如,机器学习可以自动从数据中提取模式,并识别那些在物理模型中没有显式表示的模式。这种方法有助于改进物理模型和理论。在实践中,它还可以修正动态变量的模型偏差,或者是相比于冗长和人工特殊设计的方法,它可以促进改进向下缩放到更精细的空间尺度[71,72]。
(4)限制性子模型
如图3(圆圈4)所示,可以在离线仿真中使用从机器学习算法的输出驱动子模型,而不是离线仿真中的另一个子模型(可能存在偏差)。这有助于将来自感兴趣子模块的模型错误与耦合子模块的误差分开。因此,这简化和减少了模型参数校准或观测系统状态变量同化中的偏差和不确定性。
(5)替代建模或仿真
如图3(圆圈5)所示。物理模型的全部(或特定部分)的仿真对计算效率和易处理方面有一定的作用。机器学习仿真器一旦经过训练,就可以在不牺牲很多精度的前提下,实现比原始物理模型快几个数量级的仿真。这允许快速的灵敏度分析,模型参数校准,并可以推导估计的置信区间。例如,机器学习仿真器被用来取代基于物理的辐射、植被和大气相互作用的计算昂贵的辐射传输模式,这些模型对地表遥感的解释和同化至关重要。仿真器也用于动态建模,在动态建模中,状态是在变化的,如气候模式[75],而且最近在植被动态模式[76]中也进行了探索。此外,考虑到物理模型的复杂性,仿真挑战是很好的测试平台,可以在其中探索机器学习和深度学习方法的潜力,从而推断出训练条件范围之外的情况。
图3中的一些概念已经被广泛采用。例如,链接(3)涉及到的模型基准、统计缩减和模型输出统计。在此,我们认为采用深度学习方法将大大提高时空上下文信息在模型结果订正中的使用。仿真(5)在工程和地球科学的几个分支中得到了广泛的应用,主要是为了高效地建模,但可操作性问题尚未深入探讨。其他途径,如混合模型(链接(2)),似乎很少被探索。从概念上讲,上述混合方法可以理解为对神经网络的深化(图4),使之更贴近物理规律,其中物理模型处于神经网络的上层(参见示例图4b, 4c)。它与上面讨论的反向方法形成了对比,后者生成物理模型输出,然后使用额外的机器学习方法进行订正。我们认为,同时追求物理建模和机器学习的集成是值得的。
图4. 将混合建模解释为在多层神经网络之后添加一个或多个物理层,使模型在物理上更加真实,从而深化深度学习体系结构。
a.多层神经网络,有n个神经层和m个物理层。b和c是混合模型的具体示例(图3中的圆圈2)。
b.海表面温度预测,其中水的运动场是由卷积—反卷积网络得到,并利用物理模型对运动场进行进一步处理,以预测未来的状态。
c.利用循环神经网络模拟了一个生物调控过程(气孔“阀门”的开启,控制来自叶子的水蒸气流量)。然后利用物理扩散模型来估算蒸腾作用,蒸腾作用反过来又影响土壤水分等驱动因素。
图3展示了一个系统建模视图,该视图寻求将机器学习集成到系统模型中。作为另一种视角,系统知识可以集成到机器学习框架中。这可能包括网络架构的设计[36、79]、优化代价函数中的物理约束[58],或者针对未采样区域(即基于物理的数据增强[80])扩展训练数据集。例如,尽管通常所谓的代价函数(如普通的最小二乘)会惩罚模型与数据的不匹配,但它也可以进行修改,以避免对湖泊温度模式进行物理上不可信的预测[58]。物理和机器学习模型的集成不仅可以实现更好的性能和泛化,而且可能更重要的是,可以集成机器学习模型的一致性和可信性。作为副产品,混合会产生有趣的正则化效应,因为物理学抛弃了不可信的模型。因此,融合物理知识的机器学习模型应该能较好地克服过拟合,特别是在低到中等样本大小的数据集中[81]。这一概念也与可解释机器学习模型(“可解释的人工智能”[82])的方向有关,并与将逻辑规则与深度神经网络相结合有关。
概率编程[52]和可微分编程两种方法的最新进展,有可能促进机器学习和物理模型以更合理的方式融合。概率编程允许以一种正式而灵活的方式处理各种不确定性方面的问题。正确地考虑数据和模型的不确定性,并通过先验和约束集成知识,对于最佳地组合数据驱动和理论驱动范式(包括逻辑规则)至关重要,正如在统计关系学习中所做的那样。此外,误差传播在概念上是无缝的,为模型输出提供有充分根据的不确定性边界。到目前为止,这种能力在很大程度上是缺失的,但对于科学目的,特别是对于管理或政策决策,它是至关重要的。可微分编程允许由于自动化的差异而进行有效地优化[84,85]。这有助于使大型、非线性和复杂的反演问题在计算上更容易处理,而且还允许显式的敏感性评估,从而有助于解释。
科学进展
毫无疑问,正如这一观点所表明的,现代机器学习方法极大地提高了分类和预测技能,仅这一点就很有价值。然而,除统计预测外,考虑到复杂统计模型的结果往往难以解释,数据驱动方法的问题在于如何才能改善基本的科学理解。一个基本的答案是,观测似乎总是科学进步的基础。例如,哥白尼的发现是通过对行星轨道的精确观察来推断和检验支配它们的规律。
现在,尽管探索、假设生成和测试的一般周期保持不变,但现代数据驱动科学和机器学习可以从观测数据中提取任意复杂的模式,对复杂的理论和地球系统模型发起了挑战(参见图3)。例如,基于机器学习的全球数据驱动的光合作用分析评估表明,气候模型高估了热带雨林的光合作用。这种不匹配导致科学家们提出假设,以便更好地描述植被冠层的辐射传输。这使得其他地区的光合作用估算更准确,与末端(leaf-level)观测的一致性也更好。相关的数据驱动的碳循环估计使植被模型校准成为可能,并有助于解释高纬度地区二氧化碳浓度季节性增加幅度的难题。根据这些结果,这是由于高纬度地区的植被更加旺盛造成的。
除了数据驱动理论和模型构建之外,这种提取模式越来越多地被用作探索地球系统模型中改进参数化的一种方法,模型仿真器也越来越多地被用作模型校准的基础[88]。这样,理论与观察、假设生成与理论驱动的假设检验之间的科学互动将继续下去。由于从数据中推断出假设与测试的复杂性,以及通过强大的机器学习产生假设的速度正以数量级的速度增长,我们可以期待复杂地球系统科学在定性和定量方面取得前所未有的进展。
总结
地球科学需要处理大量且快速增加的数据,以提供更准确、更确定和符合物理规律的结论,实现对复杂地球系统的预测、建模和理解。机器学习和深度学习为地球系统组件构建新的数据驱动模型提供了有用工具,以促进我们对地球的理解。地球系统特有的挑战将进一步刺激机器学习方法的研究与发展,我们有如下四个主要建议。
(1)识别数据的特殊性
多源、多尺度、高维度、复杂的时空关系,包括非平凡和滞后的远距离相关,变量之间的遥相关等需要充分建模。要很好地解决这些挑战,深度学习需要开发新的网络架构和算法,以产生解决不同尺度的空间和时间背景的方法(见图4)。
(2)推论的合理性和可解释性
对于遵循物理规律的地球系统,模型不仅应该准确,而且应该是可理解的。如果模型变得更加透明和可解释,将会促进地球科学中的机器学习的应用:它们的参数和特征排名应该具有最小的物理解释,并且模型应该可以通过一组规则、描述符和关系来简化和解释。
(3)不确定性估计
模型应该定义置信度和可信度。贝叶斯和概率推理应该被整合到模型中,因为这些方法可以实现明确表示和传播不确定性。此外,定义和处理外推是一个优先事项。
(4)针对复杂的物理模型进行测试
机器学习的时空预测能力应当与物理模型中的规则一致。因此,我们建议使用地球系统物理模型的合成数据来测试机器学习方法的性能。例如,图4b、图4c中的模型,应该在复杂物理模型模拟的广泛动力学范围内进行测试。这在有限训练数据的条件下和评估外推问题时特别重要。
总的来说,我们建议未来的模型应该整合基于过程和机器学习方法。数据驱动的机器学习在地球科学的研究不会取代物理模型,而是强有力地补充和丰富它。具体而言,我们设想了物理模型和数据驱动模型之间的各种协同作用,最终目标是实现混合建模方法。这些混合方法应遵循物理定律、具有概念化、具有可解释的结构,同时是数据自适应的,目前混合模型建模方面的理论还比较薄弱。重要的是,自科科学中的物理关系将促进机器学习研究的发展。两个主要的地球系统挑战问题最近几乎没有取得进展,一是大气对流的参数化问题,二是生态系统对气候和相互作用的时空依赖性描述。这两个问题可以使用这里讨论的混合方法来解决。
附录
1. 术语定义
名词 | 解释 |
---|---|
人工智能,机器学习和深度学习 | 人工智能是具有利用信息以执行人类智慧特征任务的算法,例如识别物体和声音,语义理解,从环境中学习,以及解决问题。机器学习是通过统计训练来进行分割、排序和转换一组数据,以最大化分类、预测、聚类或发现目标数据中的模式。深度学习是指构建日益复杂的分层架构的机器学习算法。多层的人工神经网络是深度学习算法的一个典型例子。 |
贝叶斯推理 | 贝叶斯推理是统计学和机器学习的一个框架,它被用来利用观察数据更新某假设为真的概率,以建立有效的数据分析方法。该框架在处理数据和模型中处理不确定性,编码先验假设和估计误差传播时应用最为广泛。 |
因果推断 | 因果推理通过因果关系来连接系统中的事件、过程或属性。最近的观察因果推理算法试图发现观察数据中的因果关系。 |
卷积 | 卷积是信号和图像处理中最重要的操作之一,它可以对一维(例如,语音),二维(例如,图像)或三维(例如,视频)的对象进行操作。卷积滤波器本质上是使用滑动窗口方法的加权矢量/矩阵/立方体。基于内核结构,卷积增强了数据的一些特征,例如边缘,趋势或平坦区域。卷积是嵌入在神经元级别的卷积神经网络中,从先前的层中提取有用的特征。 |
可微分编程 | 可微分编程指的是用于生成自动区分的代码的编程范例,以便其参数可以无缝优化。它将当前的深度学习框架归结为任意程序,可能包括我们在“集成物理建模”中讨论的混合建模方法 |
前馈与循环网络 | 人工神经网络是一种模拟信号在神经元之间如何传输的计算架构,例如通过突触。在人工神经网络中,信息仅在前向传递,而在一个循环人工神经网络中,信息可以在不同节点之间循环,从而产生复杂的动态记忆。 |
生成对抗网络 | 这是一种无监督的机器学习方法,广泛用于从未知概率密度函数生成实际样本的应用中。生成对抗网络由生成似是而非的样本的神经网络构成; 然后,这些样本被用来试图欺骗一个鉴别器网络,该网络应该从虚假的例子中辨别真实 |
记忆效应 | 这是一个隐喻术语,意味着如果不考虑系统过去的状态或强迫变量,就不能解释系统的当前行为。 |
临近预报和预报 | 预测某个变量意味着在未来几天到几个世纪之间建立对其值的预测。临近预报是指对不久的将来进行预测(例如,预测是否会在几个小时内下雨)。 |
概率编程 | 概率编程是一种使用统一的高级编程语言来定义概率模型的方法。通过内置的推理机器自动实现统计推断,使开发人员摆脱高性能概率推理困境。 |
辐射传输模型 | 通过模拟吸收、排放、传播和散射过程来描述不同波长(如可见光)的辐射是如何通过不同媒介(如大气层或植被冠层)传播的数学模型 |
遥感 | 大多数遥感都涉及测量从物体或物体表面中反射或发射的不同波长的辐射。基于传播的反射信号(如电磁辐射),遥感使用卫星或机载传感器来检测和分类物体以及估算地球科学感兴趣的变量(温度,盐度或二氧化碳浓度)。 |
监督学习和无监督学习 | 在监督学习中,算法通过输入和输出数据来学习它们之间的关系。输入可能是一组照片,输出可能是一组相应的标签。在无监督学习算法无法访问输出,因此目标是推断出数据的底层结构。例如,该算法可以自动地分离具有不同统计或语义属性的图片(例如作为一组猫和狗的图像) |
遥相关 | 遥相关是指远距离(通常为数千公里)相互关联的气候异常。量化遥相关模式可以预测地球上的关键模式,这些关键模式在空间和时间上都是遥远的。例如,预测厄尔尼诺事件可以提前几周或几个月预测北美降雨量,降雪量,干旱或温度。 |