记录我的Web应用开发 指导老师:张迪 使用的分析工具/开发工具:基于AntV,Echarts,Vue.js联合开发的可视化系统 软件著作权正在申请中,代码版权不容侵犯,如有侵犯著作权必将追究法律责任
一.作品简介
1.1作品背景以及解决的问题
我国近年来在大力的治理大气污染,基于在我国日益完善的空气质量网下,全国空气中PM2.5,二氧化硫,一氧化碳等空气污染物平均下降幅度很大,我们团队利用信息可视化的方法处理爆炸式增长的空维,时序特点的空气质量数据,从以下几个模块展示: 1.时空全局信息:通过可叠加多种数据的定制地图和时间轴,展示各类空气污染物,AQI(Air Quality Index,空气质量指数)及相关工矿企业的分布变化趋势。 2.全局态势分析:对城市之间的空气质量指数进行排行分析,并对比不同污染物和气象变量的关系。 3.局部态势分析:依据选定的时间范围,探索主要污染物,风向,风速与地面气压的关联,以及污染物在城市间的传播模式。 4.城市局部信息:围绕全国各城市森林覆盖率,人口密度,能源消费与工业产量等信息,辅助分析污染物来源及其影响。 5.舆情分析:通过爬取2013年-2018年与“大气污染”相关的新闻数据,展示在不同时间和地理范围下,相关新闻的数量,类别和标题,并制作了舆情态势图以及热点词云图
1.2目标用户(为谁而服务)
1.关注大气污染影响信息以及传播分析的普通用户 2.需要分析评估大气污染传播源和态势,并需要做出相应决断与措施的政府部门 3.期待对大气污染源以及态势分析进行了解,报道的媒体
1.3应用价值
本作品利用时空数据可视化技术,将时间、地理、污染物和气象数据进行了关联分析。同时爬取了全国工业、能源、企业产值、新闻舆情数据,使用可视化技术展示了各地 AQI,能源消费、工业产量、人口密度、森林覆盖率等数值的关系,以及从气象专业角度考察风向、风速与地面气压的关系和不同城市间污染物的传播模式,最后从舆情角度分析了相关热点舆论以及政府举措。有助于用户了解2013-2018年我国大气污染传播情况和发生原因,我国政府对大气污染的治理措施,并为未来大气污染的溯源与防治提供参考。
二.数据介绍
本作品对空气污染相关的三个方面进行可视化与可视化分析,本作品使用的数据包括: 1.全国大气污染数据 数据来源:中国科学院大气物理研究所等单位发布的中国高分辨率大气污染再分析开放数据集 数据预处理阶段中,根据经纬度定位结果剔除国外数据集,最终存储为CSV格式的结构化数据,其字段表如表2.1所示:
2.能源消耗数据 数据来源:中商情报网,财新网,知网报刊库 3.全国环境资源数据 数据来源:中商情报网,财新网,知网报刊库 4.工业生产总值数据 数据来源:中商情报网,财新网,知网报刊库 5.全国污染性企业数据 数据来源:中商情报网,财新网,知网报刊库 以上4类包括32各省自2012年至2018年的煤炭,焦炭,汽油等的消耗量。但是其中部分数据官网统计暂无,对于暂无的缺失数据,采用插值法进行填补。数据由JSON格式进行存储,其字段如表2.2所示:
6.新闻内容数据等 数据来源:中商情报网,财新网,知网报刊库 对于舆情分析方面,包括2013年1月至2018年12月的约5000条大气污染相关的新闻数据。本作品通过爬虫爬取三个平台的数据,然后再机器学习的分类方法定义新闻类别,最终数据以CSV格式组织,数据字段如下表2.3所示:
三.分析任务与可视化总体流程
3.1 分析任务
我们团队主要将时间、地理、污染物和气象数据进行了关联分析,对各地 AQI,能源消费、工业产量、人口密度、森林覆盖率等数值做时变规律分析,从气象专业角度考察风向、风速与地面气压的关系和不同城市间污染物的传播模式,最后从舆情角度分析了相关热点舆论以及政府举措。 其中处于核心位置的是污染物传播时空态势分析:我们选用五种不同的地形图(可叠加展示)对不同污染物(可叠加展示)在时序变化下的空间分布,并对不同年份下的AQI指数做概览分析。在此基础上研究不同城市间能源、工业关系,污染物随风速、风向等相关联系,展示大气污染舆情态势分析等。
3.2 可视化分析总体流程
本作品的可视化总体流程如图所示3.1所示:
- 确定分析主题:本次作品选择大气污染源分析、大气污染时空态势分析、大气污染舆情分析三个主题来分析研究。
- 设计可视化方案:设计作品界面整体以及各个详细模块布局、配色以及污染的图表制作。
- 采集数据:在挑战赛给予的数据集外,我们团队还爬取了新闻数据、污染性企业数据、能源消耗数据等。
- 数据过滤和清洗:剔除官方提供的大气污染物数据中的非国内数据。利用插值法对爬取数据中的缺失值进行补充。
- 开发技术选型:前端采用AntV、Echarts、Vue.js,后端采用Python Django框架。
- 实现可视化方案:设计图表之间的交互,并对数据进行分析对大气污染的成因及传播进行分析。
四.数据处理与算法模型
4.1 空气质量指数计算
AQI是根据各种污染物浓度计算得出。要计算AQI,就需要实现确定各污染物在不同空气质量水平下的浓度限值。各污染物的浓度限值可通过查找表4.1。
其中当臭氧(O3)8小时平均浓度值高于800 ug/m3时,不再进行空气质量分指数计算。AQI的计算公式:
其中,I为空气质量指数,即AQI指数,D代表污染物的取值,C为该污染物的浓度,即输入值;Cn-1,Cn为污染物浓度限值,In-1,In为AQI限值,后四个数值均为常量。
4.2 舆情文本数据分析
舆情数据处理的整个处理流程如图4.1所示:
爬虫获取的新闻数据以自然语言的形式存储在文件之中。在完成数据预处理后,为了进一步对数据进行处理,需要对新闻数据进行切词处理。由于采集的舆情数据几乎全部为中文文本,本文采用Hanlp进行分词处理,得到新闻的此列表。 切词后得到的此列表含有大量的无用词。在生成词云图之前需要对经过Hanlp分词处理的词列表进行去除停用词处理。经过反复试验,本项目对Hanlp自带的停用词库进行扩充,使得去除停用词之后的此列表更加适合本文。 新闻分类仿照财新网的定义,将新闻分为中央文件、污染要闻、能源相关、经济相关四类。然后使用TF-IDF模型对所有新闻依照以上标准进行简单分类。
五.可视化与交互式设计
在具体实现中系统将整个可视任务拆分为六个模块:中国地图模块、AQI总体概览、城市信息模块、全局态势模块、局部态势模块、舆情分析模块。
5.1 中国地图模块
中国地图模块(图5.2)是系统的核心,由辅助图层、污染物图层、工业分布图层三大部分叠加组成。
- 辅助图层以地理信息和气象信息的展示为主,包括普通地图图层、卫星地图图层、地形图图层、等高线图层、风场矢量图图层。
- 污染物图层以呈现污染物分布情况为主,包括六种污染物的图层。使用者可以按需求叠加图层便于进行观察。
- 工业分布图层以展示污染型企业分布情况为主,包括钢铁、煤炭、石油等工矿企业分布信息。 地图的左侧除了图层选择的按钮,还有一个时间轴,该时间轴的时间来自AQI总体概览图刷选的范围。使用者可以选择其中某一天进行观察。当使用者选择了具体某个日期,则这个日期会反馈到城市信息模块、全局态势模块、局部态势模块中的部分图表,数据会随之更新。
5.2 AQI总体概览图模块
AQI总体概览图(图5.3)也是系统的核心之一,主要展示了某个城市2013年至2018年每天的AQI指数。使用者可以从图中大致看出AQI的时间分布从而进行AQI的峰值分析。该图下方的时间轴可以进行刷选,刷选之后的时间范围会反馈到中国地图模块(图5.1)的时间轴、局部态势中的风向图、全局态势的城市质量排名、环境——污染物关系图。
5.3 城市信息模块
城市信息模块主要反映当前选择城市的一些基本情况、工业产品和能源消耗占比。其功能是辅助中国地图模块进行观察与判断。城市信息模块分为三个图:能源占比图(图5.4左上)、工业产品对比图(图5.4右上)、城市属性雷达图(图5.4下)。能源占比图右上角的选择框可以选择年份,工业产品对比图右上角的的选择框选择工业产品。城市雷达图展示了一个城市的五种属性结构图。
5.4 全局态势模块
全局态势模块主要功能是辅助中国地图模块做全局性的态势分析,分为城市空气质量排名(图5.5左)和环境——污染物 关系图(图5.5右)。城市空气质量排名的横轴是时间,纵轴是城市排名。环境——污染物 关系图的横轴是污染物,纵轴是环境变量,均是可进行选择的。
5.5 局部态势模块
局部态势模块主要功能是辅助中国地图模块进行局部区域性地分析。其中分为两个图:风向图(图5.6左)和污染物传播关系图(图5.6右)。风向图不止能看某城市的风向,还能了解某城市的环境变量和污染物浓度。污染物传播关系图展示某个城市与其周边城市的传播关系,箭头指向即为传播方向。
5.6 舆情分析模块
舆情分析模块由新闻数量柱状图、各省新闻数量河流图、新闻树形图(图5.7左)以及新闻热词云图(图5.7右)组成。新闻数量展示了从2012年到2018年每月的新闻数量,各省新闻数量图展示了2012年到2018年每月各省新闻数量。新闻树形图配合新闻柱状图展示了某月的所有相关新闻以及新闻分类,可以点击某条柱形图,显示该月新闻。新闻热词图是所有新闻提到的热点词汇以及词汇频率,提及频率越高的词汇越大。
六.实验案例场景分析
6.1 案例一
以北京2013年1月10日至1月15日,AQI指数突然暴增的原因分析。首先观察AQI总体概览图如图6.1所示,可以发现北京在1月10号暴增,至1月13日出现下降趋势,1月15日AQI指数降至121.5。
缺图8--待整理
点击局部态势模块,观察北京市的风向图如图6.2(a)所示,我们可以发现,主要污染物为PM10,1月10号污染开始升高的时候,当天的风速大幅降低;1月11号风速稍有升高,AQI也稍微有所降低;1月12日至15日风速保持相当的低速,如果不考虑其他因素影响,1月15日AQI指数到达顶峰,但由AQI总体概览图发现AQI指数在1月12日到达顶峰,随后迅速降低,除了AQI指数迅速降低,其他各污染物浓度也迅速降低,由此可以推断,1月13日至1月15日有风速之外的因素影响空气质量。
继续观察风向图的污染物和环境变量部分,如图6.2(b)所示,最近7天的相对湿度为51.66%,而1月15日相对湿度为73.57%,由此可推断1月14日和1月15日的天气发生变化。此处我们通过互联网查询北京1月14日的天气为小雪,而1月15日雪化了所以相对湿度较高。由上述分析我们可以获知,如果是降雨或降雪的天气会有效减少空气中污染物浓度,如果风速较低,污染物则会在城市中滞留,造成空气污染。
上面分析完北京2013年1月10日至1月15日空气质量差的原因,我们来分析一下AQI指数暴增的成因。我们查看1月9日和1月10日的风场图与主要污染物PM10热力图的叠加,如图6.3中的(a)和(b)所示,发现北京及其周边地区的风速在1月10日的风速和密度较1月9日要低;污染物传播关系图如图6.4所示,发现北京周围的城市:保定市、廊坊市、天津市,均对北京空气质量有较大的影响。
6.2 案例二
我们分析云南和四川污染物成因。我们首先看任意一天四川与云南的除臭氧外的任意污染物分布(图6.4左上),发现四川的污染物较为聚集,而云南的污染物较为分散。再观察两地的污染型企业的集群(图6.4右上),也是十分相似。
然后,观察地形图和等高线图的叠加(图6.4下),我们不难看出四川属于盆地地形,云南属山地高原地形,而且两地海拔也相当。最后观察四川成都(图6.5右)和云南玉溪(图6.5左)两地的风速大小的分布,不难发现,成都的平均风速是要小于玉溪,通过对比其他城市也得出相同结论,这也侧面印证了盆地的空气容易聚集而山地高原的空气消散快。
由上面的分析可以得出,污染物的聚集与消散会受地形的影响,盆地地形容易聚集污染物,而山地地形的污染物不容易聚集。
七.讨论与总结
为方便处理以及分析爆炸性增长的高维、时序特点的空气质量数据,我们团队通过可视化的方法,对大气污染物以及工业的空间分布、AQI的总体概览、甚至于对某个城市能源消费信息、工业产量、森林覆盖率、城市人口密度分析等做了具体分析,并分析气象变量和污染物的关联性以及传播模式,以及近几年污染的舆情态势。 基于挑战赛给予的数据以及我们爬取的数据通过各种可视化图谱进行交互式的详细分析,可以帮助政府部门分析评估大气污染传播源和态势,并需要做出相应决断与措施的。 对于数据进行整体分析,可以得到以下结论: 1.大气污染究竟有多么严重,是由两方面决定的,一是源,二是汇。源主要是工业生生产尤其是化石燃料的使用,然后是沙尘和本地扬尘;汇主要跟气象条件和地理因素有关。 2.中国的二氧化硫、二氧化氮、PM2.5主要污染物主要起源自华北平原及长江中下游流域的分布有大量煤铁石油的中国城市人口密集区。北方煤铁企业更多,燃煤发电厂分布较广。在工业发达的城市中,二氧化氮和二氧化硫的浓度成正相关。PM2.5和PM10则与周边地形环境有明显关系,例如靠近内蒙古荒漠地带的城市,在春秋两季有明显的PM2.5和PM10浓度增长。 3.地理环境对于风向、污染物扩散具有显著影响。首先是沿海与内陆不同:同是重工业发达的省份,沿海的省份大气污染容易消散,而内陆的省份则不那么容易消散,与海风等气象条件有显著的关系。其次是山脉阻隔:产生内蒙古的乌兰察布市与河北省接壤,但就算是吹东南风,乌兰察布市的空气质量也未受到河北等工业城市的影响,这是由于太行山脉阻挡住污染物传播。又如西安市冬季污染严重,与冬季北风导致的污染物聚集和南部秦岭的阻挡有显著关系。最后是平原和丘陵的对比:南方丘陵易形成局部对流,在无外来强气流的情况下,比华北平原地带更利于扩散,但有强气流光顾时,又显露出弊端。 4.时间维度对于污染物分布也有周期性的现象。首先是在需要烧煤取暖的北方城市中,PM2.5和PM10的产生具有季节性,冬季时候PM2.5和PM10更容易产生。 5.其次是在新疆的和田、喀什等地,PM2.5和PM10的浓度变化具有周期性,不过不是因为烧煤取暖或者工业,而是地处沙漠或荒原,刮风吹起沙尘导致PM2.5和PM10浓度升高。最后是臭氧污染的发生往往在海拔高的地区以及夏季,因为太阳辐射强会导致臭氧产生。 6.气候条件也导致南北污染物流散差异较大。通常气温是随着海拔升高而降低的,下层空气较热,上层空气较冷,冷空气重会下沉,热空气轻会上浮,就形成了对流。但是在某些情况下,因为地面温度急剧降低,导致贴近地面的下层大气温度很低,上层空气降温没那么快,反而温度比下层高。这种下冷上热的「逆温」一旦形成,空气无法上下对流,污染物也很难扩散。北方入冬早,夜间冷,逆温天气更多;降水少于南方,污染物在大气中滞留的时间相对更长,更容易积累;南方气温高,大气垂直运动更活跃,近地面湍流作用更强,有利于扩散。 7.植被的净化功能有限,一般只能辐射林区边沿地带,城市则完全指望不上。 8.2013,2014年是华北平原、长江中下游流域二氧化硫、二氧化氮、PM2.5主要污染物爆发的高峰。从舆情数据分析可知,2014年以来我国各地颁布的大气污染治理条例等法律法规逐年增多。如保定市六项措施推进大气污染治理,国家先进污染防治技术目录(大气污染防治领域)等等。有效地控制了主要大城市周边的传统污染物增长。但是,随着复合空气污染现象的加剧和非常规空气污染物的增加,对空气污染的控制仍然不能放松。