小白数据挖掘利器 selenium实战案例--论文数据挖掘与可视化分析(下)

2023-11-24 16:15:23 浏览数 (2)

在上一篇文章说了用Python中的selenium包控制谷歌浏览器的方式,获取了城市规划领域2012年至2022年五种期刊的信息,清洗之后共8585篇论文文献,下篇说一下数据可视化。

一、发文量分析

1)各期刊发文占比,规划师期刊增刊多、发文量占优;

除了城市规划学刊是双月刊,其余期刊都为月刊,但规划师学刊近两年疯狂增刊,2021年发刊26期,可以改名为双周刊了。

规划师杂志增刊

a.1 发文量总览-期刊

2)教育机构是期刊论文的主要生产温床;

我们把发文机构分为四类,教育机构发表论文总量占比55.48%,比重过半。

3)规划师期刊中设计院和研究院机构的发文数量和占比异军突起;

a1..1.1 机构发文

4)发文量排名前20的机构

a.2发文量机构对比图

5)发文量排名前20的作者

a.3发文量个人对比图

5)发文地域分布
  1. 《省份间发文数量差异地图》(下图一) 发文作者的作者地址主要分布于北京、广东、上海、江苏、湖北、浙江达到了省份发文量的中位数483篇。
  2. 城市发文量分布图(下图二) 如果仅筛选有发文量的城市绘制城市密度图,结果会不一样,华东地区北部和广深地区的城市更密集,但这不够严谨,因为颜色深可能也只是代表其城市地域分布的更密集。尽管如此从图中还是能看到东西部地区的差异。

b 发文地域分布

二、文章影响力分析

作者被引频次分为一次被引频次(引证文献的数量)和一次被引频次(引证文献的引证文献的数量,),本文没有特殊说明都是一次被引频次。

二级引证文献是指本文引证文献引证文献,更进一步反映本文研究工作的继续、发展或评价。

1)作者被引频次

注:每段颜色代表一篇文章,颜色深浅代表此文章被引频次。且未设置第一作,论文署名就算此位作者的发文。

c.1个人发文 被引

详细分布数据可以看下图:

2.4 发文量与被引量关系

2)发文机构被引量

c.3 机构发文被引排行

3)基金支助与被引频次的关系

c.8 基金分布

c.7 基金与被引量

三、 内容、关键词分析

1)根据关键词分析

词云图反应相应关键词出现的频率,近十年总体来看”国土空间规划“占据主流,热度超过“城市规划”、“城市设计”、”城市更新“、”控制性详细规划“。北京、广州、上海、深圳等地理关键词的出现,反应了以其为研究对象的文章较多,侧面说明北上广深实际项目和城市规划发展质量较好。

  1. 2012-2022关键词分析

2012-2022关键词分析

  1. 分年份关键词分析,热词整体呈现从“城市规划-新型城镇化-城市更新-城市规划“向”国土空间规划”发展。
  • 2012_keywords
  • 2013_keywords
  • 2014_keywords
  • 2015_keywords
  • 2016_keywords
  • 2017_keywords
  • 2018_keywords
  • 2019_keywords
  • 2020_keywords
  • 2021_keywords
  • 2022_keywords
2)根据摘要分析

三、论文网络分析

1.作者合作发文网络分析

1)作者合作发文比例平均达77%,合作发文的比例呈现上升趋势

image-20221228221745147

![image-20221228221730287](-1315363329.cos.ap-nanjing.myzijiebao.com/markdown_img/202212282217667.png

image-20221228221803667

2)作者间合作网络结构简单,作者间联系程度并不高

通过Python的Networkx包构建作者之间的合作网络,发现8585位(不考虑重名)作者中:

  • 合作网络密度低(0.0003) 作者网络绘图
  • 平均而言一位作者需要和三到四位作者合作,从一位作者到任意一位作者平均需要通过四到五人,更加说明文章的合作率高,单独发文的作者数量少。
  • 最高中心性的作者排名:王德(56人)、王兴平(51人)、张京祥(51人)、黄亚平(49人)、李贵才(47人)、李志刚(47人)、黄明华(45人)、袁媛(43人)。虽然比社交网络中心性低不少,但第一名作者还是和56人(0.557%)合作过文章。
    • 作者网络中心度直方图

3) 城市间合作网络

与其他城市的作者合作的密切度前8位是:北京、上海、南京、杭州、广州、重庆、武汉、天津。如下图:

城市合作网络带你用数据看世界

0 人点赞