原文链接:https://tecdat.cn/?p=34347
原文出处:拓端数据部落公众号
分析师:Jiongyan Zhang
COVID-19对航空网络的拓扑结构和属性都有很大的影响,其影响的结果表现在网络鲁棒性、连通性和活动性的下降,以及疫情区域的航空网络状态的变化。然而,航空网络的时空演变以及疫情对整体和局部网络的影响尚不清楚,需要进一步探索。为了弄清楚COVID-19对全球航空网络有什么样的影响,以及这次事件对它的影响程度,我们研究了二者之间的关系,并揭示了其潜在的模式规律。
解决方案
数据源准备
航班数据集来自两大航空信息组织Variflight与Opensky. 前者的数据主要是收集2019年12月1日至2020年4月30日期间的中国航空公司数据,这些数据密度较大,比较完整,包括机场和航空公司的代码、坐标、省、市、国、名、时间等。后者主要收集国际航空公司,相对稀疏,数据覆盖范围更广,从2020年1月1日到2020年4月30日。此数据集定期刷新,以便包含更多数据。两个数据集不能合并,但被划分为两个不同的部分,具有不同的规模。因此,执行双尺度分析是有必要的。
数据预处理
虽然数据来自两个不同规模和密度的数据集,但我们可以用同样的方法构建复杂网络。在这里,数据处理可以分为三个步骤。第一步是补充网络节点数据,赋予节点机场属性。数据主要来自OAG(https://www.oag.com/),它是世界领先的航空情报咨询机构。在这里,可以获得机场代码、位置、地区等信息。通过节点数据,可以对飞行网络进行细分,使研究不同区域的飞行网络成为可能。这也为区域研究铺平了道路。第二步是建立加权边。通勤者的数量决定了每条路线的权重。这种网络可以定义不同节点的繁忙程度,这就完成了飞行网络的基本框架。最后一步是利用这些节点和边的特性构建整个飞行网络。该飞行网络是一个加权图,可以用图论的方法进行分析和描述。同样的建模方法可以为每天的航线数据构建时间序列复杂网络。
方法
复杂网络具有许多特点。在现在的情况下,连接性、活跃性、完整性和聚集性是我们需要考虑的四个特征。这四个特征映射的具体指标是最大联通子图的尺度、度、密度和聚集系数。同样,本研究构建的飞行网络也是一种复杂的网络,可以继承和利用这些特征。我们选取这些指标来量化航空网络的特征,探索复杂数据之下的规律。
同时,皮尔逊相关模型则可以被应用到疫情和航空网络相关性模型上,构建出不同地区的航空网络-疫情响应分析模型。
本次航空网络时空演变分析如下:
COVID-19 与指标的相关性:应该解释的是,没有 COVID-19 统计案例的时期也包括在内,这导致曲线开始处的点的累积。随着病例数的增加,均呈下降趋势。但有些细节并不统一,比如密度指标出现异常上升趋势。
以及地区差异:
各指标与 COVID-19 的区域相关性。这 12 个图形显示了与不同区域相关的曲线,同时表示了各种指标的大致走势。第一行是美国,第二行是欧盟,最后一行是中国大陆。每行包含四个指标:平均度、最大连通子图规模、密度和聚集系数。请注意,基于中国数据的飞行网络来自其他数据源( varflight )。很明显,欧洲和美国的飞行网络有着相同的模式。随着确诊病例的增加,各项指标均呈简单下降趋势。但我国(大陆)的指标变化略有不同,包括各指标在流行曲线中间的上升趋势和结束时的回升趋势。**
同时,不同区域的皮尔逊相关分析得到以下结论:
January | February | March | April | |||||
---|---|---|---|---|---|---|---|---|
R | P | R | P | R | P | R | P | |
The US | 0.08 | 0.65 | -0.04 | 0.82 | -0.90 | 0.00 | -0.84 | 0.00 |
Europe | -0.20 | 0.28 | -0.12 | 0.55 | -0.88 | 0.00 | -0.41 | 0.03 |
China (Mainland) | 0.74 | 0.00 | -0.85 | 0.00 | 0.40 | 0.02 | 0.43 | 0.02 |
1月,该病毒在全球范围内的广泛传播尚未发生。此时,该病毒仅在武汉刚被发现。这可能导致逻辑上病毒的传播和航班热度变化是非正常的。值得注意的是,中国大陆的空中交通似乎与病毒传播正相关,这是由于疫情传播与中国大陆春节事情交通重叠的巧合。
2月,疫情在中国大陆迅速蔓延。相应地,大陆航班网络受到严重打击,航班活动急剧减少。因此,相关系数表现出该病毒具有很强的破坏性。反之,欧美的表现则相反,因为疫情尚未在全球传播,以使得全球网络对COVID-19作出相似反应。
3月份,欧美和中国大陆的发展模式呈现出两种不同的状态。此时,COVID-19已开始在全球传播,欧美确诊病例激增,迫使地方政府采取各种方式限制空中交通。目前,欧美航班网络的活动与确诊病例呈高度负相关。这种情况是中国2月份发生的事情的翻版。然而,中国大陆的相关系数明显下降到较低的水平,并且是正的。结果显示,虽然我国确诊病例继续上升,但航空网络正在恢复,表明我国大陆疫情已得到控制,部分生产服务活动正在恢复。
4月份,美国仍维持此前的强负相关格局。中国大陆仍维持较低的正相关,航班网络继续恢复。然而,欧洲的负相关性很低。对于欧洲流行模式,其他粗拟合结果显示,4月份的下降斜率为-8.229e-05,比前一个月平缓(-0.01428)。这说明欧洲的航班网络已经触底。考虑到欧洲航班遭受80%的损失,可以理解航班网络受到的破坏在后期有所缓冲。
关于作者
在此对Jiongyan Zhang对本文所作的贡献表示诚挚感谢,他毕业于武汉大学,专注数据分析领域。擅长Python、SPSS等。
最受欢迎的见解
1.采用spss-modeler的web复杂网络对所有腧穴进行分析
2.用R语言和python进行社交网络中的社区检测
3.R语言文本挖掘NASA数据网络分析,tf-idf和主题建模
4.在R语言中使用航空公司复杂网络对疫情进行建模
5.python隶属关系图模型 基于模型的网络中密集重叠社区检测
6.使用Python和SAS Viya分析社交网络
7.关联网络分析:已迁离北京外来人口的数据画像
8.情感语义网络:游记数据感知旅游目的地形象
9.用关联规则数据挖掘探索药物配伍中的规律