【分享】高速铁路网络数据集:

2022-09-27 14:23:07 浏览数 (1)

今天给大家推荐一个数据集:2019年10月8日至2020年1月27日不同方向的列车运行数据,727个车站、3399列列车和2751713条运行数据的高速铁路网络数据集。

为支持大规模复杂网络、复杂动态系统和智能交通的研究,研究者开发了一个高速铁路网络数据集,包含2019年10月8日至2020年1月27日不同方向的列车运行数据,列车延误火车站数据、枢纽站数据、相邻车站里程数据。在数据集中,天气、温度、风力和重大节假日被认为是影响列车运行的因素。

数据下载网址:

代码语言:javascript复制
https://figshare.com/articles/dataset/A_high-speed_railway_network_dataset_from_train_operation_records_and_weather_data/15087882/4

一、获取方法流程图

为了获得高铁网络数据集,我们首先收集列车运行记录、里程信息和火车站的地理位置。根据地理位置收集历史天气相关数据,获取2019年10月8日至2020年1月27日的重大节假日日期。其次,我们计算一班列车的到站和发车延误时间,统计一站不同方向每小时延误的列车数量。第三,计算相邻车站的里程。四是统计中国前十大枢纽列车运行情况。五、根据地理位置和时间戳,列车方向、车站类型、天气、节假日等复杂因素扩展到高铁运行数据和火车站延误数据。最后,我们检查并验证我们的数据集。

二、数据获取过程

源数据收集:高速列车运行记录由历史时刻表和实际运行信息组成。我们使用python28的网页抓取方法从中国铁路客票系统(https://www.12306.cn)获取了2019年10月8日至2020年1月27日共16周的3399列列车的2751713条运行数据。一列列车的运行记录包括停靠站、预定出发和到达时间、实际出发和到达时间等。图 2显示了中国高铁网络,包括3399列列车的727个车站和实际运营线路。

高速列车里程数据采集:根据列车运行记录,我们使用网络抓取的方法从http://www.huchepiao.com获取3399列列车的运行里程。由于铁路线路不断调整,我们获得了更新至 2020 年的数据。数据中包含的属性包括列车号、站序、站名以及从一站到始发站的里程。我们通过手动搜索来补充缺失的里程数据。

火车站集合地点:根据 3,399 条高铁运营线路,删除重复项后得到 727 个站点。这些电台的名称是独一无二的。然后,我们得到它们的地理位置,包括省、市和区。我们通过手动搜索来补充缺失的位置信息。
枢纽站集合:在铁路网中,多条干线的连接处一般称为铁路枢纽,由若干站、站间连接线、入站线和信号线组成。在数据集中,我们考虑了中国十个具有代表性的路口。

三、高铁网络数据集的复杂性

我们高铁网络数据集的复杂性表现在:(1)列车运行的时空分布特征;(2)高速铁路网动态;(3)高铁网动态社区;(4)列车运行外部影响因素的多样性。

时空分布特征:以车站总延误数为例,绘制车站延误时空分布,如图所示。
动态特性:以 2020 年 1 月 16 日为例,我们绘制了图 4中的动态运行网络。蓝线代表正常运行的铁路线,红线代表延迟运行的铁路线。从 00:00 到 06:00 运行的列车很少。然而,在其他时间,火车几乎穿过网络上的所有车站。与其他时间相比,09:00至21:00的列车延误更为严重,说明列车延误网络也是动态的。
动态社区特征:图中不同的颜色代表不同的社区。由于00:00至06:00运行的列车很少,大多数车站都没有列车经过,所以它们被划分为同一个社区。根据车站的位置、列车运行线路的变化、延误状态的变化等,列车运行网络的社区结构也在不断变化。

四、数据记录说明

(1)该数据集30位于 figshare 中,可作为 4 个单独的 csv 文件使用,如下所述:

(2)high-speed trains operation data.csv:2019年10月8日至2020年1月27日3399列高铁运行数据,主要节假日及天气相关影响因素。

(3)火车站延误数据.csv:2019年10月8日[00:00, 01:00), 2020年1月27日[23:00, 24:00), 727个火车站延误的列车数量, 主要节假日和天气相关的影响因素。

(4)相邻车站里程数据.csv:3399条列车运营线路相邻车站里程数据。

junction station data.csv:2019年10月8日至2020年1月27日中国前十个枢纽站数据,包括不同方向通过一个车站的列车总数和晚点列车总数。

上面下载网址粘贴到浏览器地址栏,自行下载

0 人点赞