基于类比预报、深度学习模式识别技术和基于影响的自动标签策略构建数据驱动框架预测极端天气。训练数据来自大集合的全耦合地球系统模式,并利用标注后的对流层中部的大尺度环流形势(Z500)训练CapsNets,同时利用地面温度和Z500同时训练神经网络模型时,准确率能达到80%左右,而召回率在88%左右。CapsNets的结果优于卷积神经网络和逻辑回归方法的结果。
本文主要是基于类比预报,从过去的数据集中寻找类似的天气形势进行预报。这种方法在数值模式广泛应用之前是进行天气预报的关键工具。因为环流模式在环流的时空演变以及地面极端天气的发生中起到重要作用,同时类比预报可以将天气预报视作复杂的模式识别问题。所以,我们基于类别预报构建数据驱动框架。
我们并不是通过网格的欧式距离从历史数据中寻找最完美匹配的例子或几乎完美的例子的组合,而是利用深度学习技术根据特征空间和极端事件间的复杂关系进行分类。
极端事件开始时2m温度异常聚类中心和提前3天的Z500
第1行和3行表示聚类中心. 第2行和4行表示每个聚类开始前3天的Z500平均
数据
LENS数据
利用40个集合成员的全耦合大气-海洋-陆面-并社区地球系统模式版本1(CESM1)的模拟结果,大气环流是非静态、混乱且多尺度,确保复杂性类似真实大气。
但最终用于训练的数据仅40个集合成员1920-2005年的夏天(6-8月)和冬天(12-2月)2m地面温度和500 hPa的位势高度的日均值。
热浪和寒潮事件
主要关注北美大陆地区的极端温度事件,中纬度范围为30N-60N。通过移除气候平均值计算T2m的异常。由于气候数据集具有时空相关性,可能会影响训练过程导致在测试期间产生很高的准确率。在选择极端事件时,考虑了极端事件发生前5天没有其他极端事件发生,而且在之后的10天也没有其他极端事件发生。
极端事件的聚类
我们将极端事件聚类为4个地理区域。首先是对极端事件开始时的T2m执行EOF分析,提取前22个主要成分,然后利用K均值聚类算法进行聚类。
注意:进行聚类时,要确保4个类别的样本量保持平衡。除了利用K均值聚类外,还可以使用分层聚类或SOM进行聚类。
方法
本文采用了卷积神经网络和胶囊神经网络训练模型。由于对导致极端天气事件环流形势的认识不足以及复杂性问题,并未采用基于专家知识标注数据的方式,而是利用基于影响的自动标签策略构建数据集。即极端事件开始时聚类得到的T2m异常结果,标注极端事件开始前3天的Z500位势高度。
为了避免类别不平衡问题,以四种极端事件中发生次数最少的事件样本数目为基准构建数据集。本文测试了不同样本数量情况下,模型性能的表现。最后通过准确率和召回率评估模型性能。
极端天气预测的数据驱动框架示意图
结果
本文只是提供了类比预报和深度学习以及基于影响的自动标签策略的极端天气预报的概念证明。所以就简单的介绍一下本文的结果,更详细的内容大家去看文章吧。
1)采用Z500 T2m比单独使用Z500的预测准确率要高;而且通过添加更多的限制,也可以降低虚报率;
2)在训练集足够的情况下,训练集的大小的变化,对模型性能的影响并不是非常明显;
3)CapsNet的预报效果要优于ConvNet和逻辑回归的结果,可能是因为相对于卷积神经网络,胶囊神经网络能够提取特征的相对位置和方向,而特征的相对位置在时空气候数据中是非常重要的。
讨论
本文提出的数据驱动框架的主要成分就是基于影响的自动标注策略和CapsNet的模式识别能力。如果要进一步改善预报准确率和更长时间的提前预报,可以使用更多的变量训练模型,比如更多对流层的位势高度、土壤湿度、向外的长波辐射以及变化较慢的对流层边界条件信息等。
为了简化问题,本文仅使用K均值聚类进行了少量的聚类分析。如果要进行更加全面的分析,也可以采用其他聚类算法区分更多的类别。
当前对于导致极端天气事件的前体事件的理解尚不是很完善,而识别其前体事件对于改善天气和气候模式以及极端事件的动力过程的理解是非常重要的。考虑到CapsNet可以预测导致极端事件的天气形势,可以尝试理解神经网络是如何学习并利用这些特征进行预测的。
本文提出的数据驱动框架可以应用到其他高影响天气现象预测。同时可以利用专家知识进一步改进基于影响的标注策略方法。