好文速递:使用机器学习方法改善卫星对海洋颗粒有机碳浓度的检索

2021-05-24 14:47:25 浏览数 (1)

Improving satellite retrieval of oceanic particulate organic carbon concentrations using machine learning methods

使用机器学习方法改善卫星对海洋颗粒有机碳浓度的检索

From: 深圳大学

摘要:微粒有机碳(POC)在海洋碳循环中起着至关重要的作用,是将碳移至深海的“生物泵”的一部分。蓝绿带比例算法可用于在全球海洋中推算POC浓度;但是,它往往会低估光学复杂水中的高值。为了开发准确,可靠的海洋POC模型,本研究旨在探索卫星学习POC浓度的机器学习方法。测试了三种机器学习方法,即极端梯度增强(XGBoost),支持向量机(SVM)和人工神经网络(ANN),并采用了递归特征消除(RFE)方法来识别敏感特征。全球原位POC测量与海洋颜色气候变化倡议(OC-CCI)产品的配对用于训练和评估POC模型。结果表明,机器学习方法产生的性能明显优于蓝绿色带比率算法,并且在测试的三种机器学习方法中,XGBoost最为稳健。但是,蓝绿色带比率算法仍然适用于POC较低的晴朗开放海水,而ANN对于POC极高的光学复杂水域更为有效。这项研究为卫星检索POC浓度提供了全球适用的方法,这将有助于研究全球海洋以及生产性边缘海中POC的动力学。

亮点

  1. 全球海洋POC模型是使用机器学习方法开发的。
  2. 机器学习方法适用于营养贫乏到生产用水。
  3. 机器学习方法的性能优于蓝绿色带比率算法。
  4. 机器学习方法对于POC浓度的检索更为可靠。

数据

  • 现场采集数据:1、Martiny等人收集的数据集(https://datadryad.org/)2、从SeaBASS检索到的POC数据,来自全球海洋上70个巡航或时间序列站的49,054个POC测量值组成(https://seabass.gsfc.nasa.gov/)。
  • 卫星数据:由欧洲航天局生产的OC-CCI v4.2产品。

匹配现场采集数据和OC-CCI数据之间对位的位置(a),以及所有对位的POC浓度的直方图(b)。(a)中的背景图显示了由NASA在2002-2019年7月,8月和9月感测到的数据生成的季节性气候平均POC产品。

部分结果

XGBoost(a-b),SVM(c-d),ANN(e-f)和蓝绿带比率算法(g-h)的估计POC浓度与测量POC浓度的散点图。具有2846和705个数据点的图分别用于10倍交叉验证和验证结果。以log10转换比例计算模型准确性的度量。

通过XGBoost(a),SVM(b),ANN(c)和谱带比率算法(d)获得的验证数据集,相对误差随POC浓度的变化。最小值,最大值和平均值分别是从蒙特卡洛模拟中获得的相对误差的最小值,最大值和平均值。

三个选定区域(大西洋、加勒比盆地和切萨皮克湾)现场采样的地理位置。

分别比较XGBoost,SVM,ANN和AMT24(a),CARIACO(b)和切萨皮克湾(c)的蓝绿比算法的性能的泰勒图。(这个图很棒哦)

分别使用XGBoost(a),SVM(b),ANN(c)和蓝绿带比率算法(d)检索的POC浓度(mg m-3)。

XGBoost(a-b),SVM,(c-d),ANN(e-f)和蓝绿带比率算法之间的绝对和相对POC浓度差异。左列和右列分别用于绝对和相对差异。

这项研究发现,机器学习方法可以改善卫星对海洋POC浓度的检索。尤其是,它们适用于低到高的POC值,而蓝绿色带比率算法往往会低估高值。一方面,这一发现还可以通过蓝绿比容易受到传感器噪声和大气不确定性的支持。另一方面,这些结果可以由以下原因解释:(i)机器学习方法可以在建模中对POC浓度采取多种敏感特征,考虑到POC与光学特性之间的复杂关系,这种方法特别有用;(ii)机器学习方法对于非线性关系具有更复杂的拟合能力; (iii)本研究中使用的三种机器学习方法是非参数模型,它们不对输入数据进行参数假设,并且具有更好的拟合能力。

这项研究还发现,机器学习方法比蓝绿色带比率算法更健壮。特别是,XGBoost表现出最高的鲁棒性,这应该由基于树的整体学习者获得。因此,可以通过增强策略在XGBoost建模中纠正由添加的噪声引起的不确定性。出于以下考虑,使用了蒙特卡洛方法(i)始终被视为评估其他误差传播方法的基准方法;(ii)它可以捕获输入和输出不确定性之间的非线性影响;(iii)难以使用分析方法。

这项研究表明,POC的检索精度随光学水类别和POC浓度的不同而不同。特别是对于较大的光学水级别,蓝绿带比算法严重退化,这是由于高POC浓度低估了其结果。但是,对于大西洋中较低的1-3级光学水和低POC,带比算法略胜于三种机器学习方法。考虑到蓝绿带比例算法和CI算法的成功应用,仍然建议在大洋中使用这两种算法。相比之下,对于极高的POC浓度,例如在切萨皮克湾,ANN显示出明显优于XGBoost和SVM的优势。因此,对于复杂的沿海和河口水域,人工神经网络可能是一种很有前途的建模技术。而且,每个光学水类的训练样本数量也可能是不同营养体制下模型性能变化的结果。

总体而言,这三种机器学习方法没有产生较大的建模差异,但是,模型应用结果显示出一些差异,尤其是对于高POC浓度。三种方法获得的模型应用结果的差异应归因于:(i)缺少对战中具有高POC浓度的样本,(ii)机器学习方法的不同泛化能力,(iii)他们采用的不同策略在建模中。ANN获得的较高精度表明它具有很高的泛化能力,这也解释了它在大西洋上的更好性能。相反,对于贫营养水和生产水,XGBoost的相对较低的精度证明了其对小样本量的泛化能力较低。因为XGBoost作为基于整体树的方法,在很大程度上取决于模型训练中的样本量。因此,更多的原位POC样品具有进一步提高XGBoost性能的潜力。

在这项研究中开发的准确的机器学习POC检索模型应部分归因于RFE方法选择的敏感特征。RFE方法用于选择敏感特征,因为它比其他特征选择算法(如遗传算法和连续投影算法)更好地工作。选择的九种敏感特征与POC浓度密切相关。尽管POC不是三种旋光物质中的任何一种,即叶绿素a,非藻类颗粒(NAP)和有色溶解有机物(CDOM),但它来自浮游植物和NAP。因此,POC浓度通过浮游植物和NAP与光学指示剂间接相关,这在附录B中进行了讨论。而POC与浮游植物或NAP之间的关系是复杂且变化的。为什么机器学习方法可以改善卫星POC检索。

这项研究中开发的机器学习模型基于一个庞大的全球匹配数据集,并且原位POC涵盖了范围广泛的POC变化,范围从贫营养型回旋中的约10 mg m-3到生产性营养中的4000 mg m-3以上沿海和河口水域。考虑到它们的更高性能,这三种机器学习方法在全球海洋中具有巨大的潜力。尤其是,机器学习POC检索模型的应用将缓解生产性边缘海和光学复杂的河口水域中POC池的低估。尽管这些水仅占全球海洋的一小部分,但它们占从表层海洋到底部的POC通量的70%以上。

但是,在进一步的研究中仍有改进的余地。首先,需要更多的原位样品来提高模型的适用性。作为数据驱动的方法,输入训练样本直接影响机器学习性能。特别是在生产性沿海水域中仍然观察到很大的不确定性,长江口的POC浓度可能超过10,000 mg m-3。因此,需要更多在生产水中收集的原位样品来开发全球适用的POC模型。另外,在贫营养水(1-3级光学水)和中营养水(6-8级光学水)中,更多的原位样品也可以使用机器学习方法来改善POC检索。

其次,由于OC-CCI产品具有较长的时间跨度,覆盖全球且易于使用,因此被用于开发POC检索模型。但是,由于频段差异,开发的模型无法直接应用于其他卫星传感器产品。此外,OC-CCI应用的带移算法通常可以很好地合并多个海洋彩色卫星产品。但是,这可能是OC-CCI产品不确定性的来源。因此,为每个海洋彩色卫星开发基于机器学习的POC检索模型仍然是必要的,并且在进一步研究中具有意义。此外,POC模型中使用的叶绿素a吸收系数是使用准分析算法得出的。尽管研究表明该算法即使在某些光学复杂水域中也能很好地运行,但应始终针对特定区域水域调整参数。因此,IOP中的不确定性也可能给检索到的POC带来不确定性。

此外,对浑浊水域进行的不完善的大气校正也可能会影响模型性能。OC-CCI海洋颜色产品4.2版本是使用POLYMER软件包和SeaDAS软件从多个海洋颜色传感器衍生而来的。尽管聚合物适用于全球大部分海洋,但它往往低估了生产性混浊水域的Rrs。SeaDAS中实施的NIR迭代大气校正方法也不适用于混浊水域。因此,通过改善这些水域的大气校正能力,也可以在生产性和浑浊的水域中改善海洋POC的获取。

引用格式

Liu H, Li Q, Bai Y, Yang C, Wang J, Zhou Q, et al. Improving satellite retrieval of oceanic particulate organic carbon concentrations using machine learning methods. Remote Sensing of Environment 2021; 256.

0 人点赞