2019-07-27 18:55:03
浏览数 (1)
序
前言
学习R语言有半年时间了,一直想找个机会找个小项目练练手,所以才有了这篇文章。
目的
对《Nature Neuroscience》杂志2009-2018年的研究文章进行可视化初探。
主要分为以下几个部分:
1. 基础统计及可视化
2. 进一步统计及可视化
3. 主要国家比较及可视化
4. 热词统计及可视化
5. 对接收时间的统计建模及特征选择
(截至发文才完成第1和第2部分,其余部分只能有机会再做)
数据来源
从Nature杂志官网搜索文章,搜索参数为:
journal: neuro
subject: biological-sciences/health-sciences
article_type: research, review, protocol(不包括Introduction, Editorial)
time_range: 2009-2018
说明
1. 中国(港澳台地区)与中国大陆合并计算。
2. 如果不做特别说明,日期默认按照发表日期(Publlish Date)统计。
不足
1. 数据缺失或不规范为数据分析带来偏差。比如国家、省份、城市名称前后不一致或缺失。
2. 对NA的处理还不够完善。什么时候该去除NA是要仔细考量的。
3. 有些作者的英文名是重合的,计算时没有做区分。
4. 文章数相同的作者排名是按照姓名的字典序排序的。
5. 没有统计标准差。
6. R作图的一些细节还需要改善。
7. 实现的代码虽然经过简化,但还是有些冗余。
8. 还有很多有意思的东西限于时间经历和篇幅就暂不研究了。
声明
本文仅是个人练习的结果,肯定有谬误的地方,不具有任何参考价值,那些花里胡哨的话不要乱了心!
第一部分:基础统计及可视化
导入数据
数据预处理
观察数据
代码语言:javascript
复制'data.frame': 2575 obs. of 21 variables:
$ date : chr "2018-12-31" "2018-12-17" "2018-12-17" "2018-12-17" ...
$ title : chr "Panoptic imaging of transparent mice reveals whole-body neuronal projections and skull–meninges connections" "TDP-43 extracted from frontotemporal lobar degeneration subject brains displays distinct aggregate assemblies a"| __truncated__ "Efficient coding of subjective value" "Invasion of white matter tracts by glioma stem cells is regulated by a NOTCH1–SOX2 positive-feedback loop" ...
$ type : chr "Research" "Research" "Research" "Research" ...
$ magzine : chr "Nature Neuroscience" "Nature Neuroscience" "Nature Neuroscience" "Nature Neuroscience" ...
$ volume : int NA 22 22 22 22 22 22 22 22 22 ...
$ startPage : int 1 65 134 91 120 57 78 37 106 25 ...
$ endPage : int 11 77 142 105 133 64 90 46 119 36 ...
$ abstract : chr "Analysis of entire transparent rodent bodies after clearing could provide holistic biological information in he"| __truncated__ "Accumulation of abnormally phosphorylated TDP-43 (pTDP-43) is the main pathology in affected neurons of people "| __truncated__ "Preference-based decisions are essential for survival, for instance, when deciding what we should (not) eat. De"| __truncated__ "Early invasive growth along specific anatomical structures, especially the white matter tract, is regarded as o"| __truncated__ ...
$ receiveDate: chr "2018-04-01" "2018-09-10" "2018-01-20" "2018-04-06" ...
$ reviseDate : chr "" "" "" "" ...
$ acceptDate : chr "2018-11-21" "2018-11-14" "2018-11-13" "2018-10-31" ...
$ author : chr "Ruiyao Cai|Chenchen Pan|Alireza Ghasemigharagoz|Mihail Ivilinov Todorov|Benjamin F<U 00F6>rstera|Shan Zhao|Hars"| __truncated__ "Florent Laferrière|Zuzanna Maniecka|Manuela Pérez-Berlanga|Marian Hruska-Plochan|Larissa Gilhespy|Eva-Maria Hoc"| __truncated__ "Rafael Polanía|Michael Woodford|Christian C. Ruff" "Jun Wang|Sen-Lin Xu|Jiang-Jie Duan|Liang Yi|Yu-Feng Guo|Yu Shi|Lin Li|Ze-Yu Yang|Xue-Mei Liao|Jiao Cai|Yan-Qi Z"| __truncated__ ...
$ nauthor : int 22 23 3 22 4 10 18 17 20 15 ...
$ ncoauthor : int 2 2 1 4 1 1 3 1 2 1 ...
$ corresp : chr "Ali Ertürk" "Magdalini Polymenidou" "Rafael Polanía|Christian C. Ruff" "Xiu-Wu Bian|Shi-Cang Yu" ...
$ ncorresp : int 1 1 2 2 1 2 2 1 3 2 ...
$ institute : chr "Ludwig-Maximilians University Munich;Graduate School of Systemic Neurosciences Munich|Ludwig-Maximilians Univer"| __truncated__ "University of Zurich|University of Zurich|University of Zurich|University of Zurich|University of Zurich|Univer"| __truncated__ "University of Zurich;ETH Zurich;Columbia University|Columbia University|University of Zurich" "Army Medical University (Third Military Medical University);Army Medical University (Third Military Medical Uni"| __truncated__ ...
$ city : chr "Munich;Munich|Munich;Munich|Munich|Munich;Munich|Munich|Munich|Munich|Munich|Munich|Munich;Munich|Munich|Copenh"| __truncated__ "Zurich|Zurich|Zurich|Zurich|Zurich|Zurich|Zurich|Zurich|Zurich|Zurich|London;London|London;London|London;London"| __truncated__ "Zurich;Zurich;New York|New York|Zurich" "Chongqing;Chongqing|Chongqing|Chongqing;Chongqing|Chongqing|Chongqing;Chongqing|Chongqing|Chongqing;Chongqing|C"| __truncated__ ...
$ province : chr "Munich;Munich|Munich;Munich|Munich|Munich;Munich|Munich|Munich|Munich|Munich|Munich|Munich;Munich|Munich|Copenh"| __truncated__ "Zurich|Zurich|Zurich|Zurich|Zurich|Zurich|Zurich|Zurich|Zurich|Zurich|London;London|London;London|London;London"| __truncated__ "Zurich;Zurich;NY|NY|Zurich" "Chongqing;Chongqing|Chongqing|Chongqing;Chongqing|Chongqing|Chongqing;Chongqing|Chongqing|Chongqing;Chongqing|C"| __truncated__ ...
$ country : chr "Germany;Germany|Germany;Germany|Germany|Germany;Germany|Germany|Germany|Germany|Germany|Germany|Germany;Germany"| __truncated__ "Switzerland|Switzerland|Switzerland|Switzerland|Switzerland|Switzerland|Switzerland|Switzerland|Switzerland|Swi"| __truncated__ "Switzerland;Switzerland;USA|USA|Switzerland" "China;China|China|China;China|China|China;China|China|China;China|China;China|China;China|China;China|China|Chi"| __truncated__ ...
$ address : chr "Institute for Stroke and Dementia Research, Klinikum der Universit<U 00E4>t München, Ludwig-Maximilians Univers"| __truncated__ "Institute of Molecular Life Sciences, University of Zurich, Zurich, Switzerland|Institute of Molecular Life Sci"| __truncated__ "Zurich Center for Neuroeconomics (ZNE), Department of Economics, University of Zurich, Zurich, Switzerland;Deci"| __truncated__ "Institute of Pathology and Southwest Cancer Center, Key Laboratory of the Ministry of Education, Southwest Hosp"| __truncated__ ...
转换数据类型
看各列是否有NA
代码语言:javascript
复制 date title type magzine volume startPage
0 0 0 0 1 0
endPage abstract receiveDate reviseDate acceptDate author
0 0 87 2574 87 0
nauthor ncoauthor corresp ncorresp institute city
0 0 9 0 0 0
province country address
0 0 0
删除重复数据
原来共有多少行:
代码语言:javascript
复制[1] 2575
删除后还有多少行:
代码语言:javascript
复制[1] 1847
添加文章序号
杂志近N年的发文数、发文类型分布
看看每年的发文数变化
杂志近N年一篇文章的标题字数
标题是不是越来越长呢?
杂志近N年一篇文章的平均页数
多盼望两三页就能搞定论文啊!
(暂不统计缺失数据(NA)的比例)
杂志近N年一篇文章的接收时间
新年愿望:当天发,当天收~
(暂不统计缺失数据(NA)的比例)
杂志近N年一篇文章的平均作者数
师兄师姐帮帮忙,师弟师妹挂挂名~
(暂不统计缺失数据(NA)的比例)
杂志近N年一篇文章的共一作者数
分你一杯羹!
(暂不统计缺失数据(NA)的比例)
杂志近5年一篇文章的通讯作者数
报告老板,文章发啦!
(暂不统计缺失数据(NA)的比例)
一个作者发了几篇文章
有一篇就是人生赢家了,嘿嘿嘿…
一个作者发了几篇一作(包括共一)
跟别人合作也是不错的~
一个作者发了几篇通讯
老板棒棒的!
一个国家发了几篇文章
都在烧钱啊
一个机构发了几篇文章
拿经费拿到手软
近N年一篇文章平均有几个国家参与
地球是个村嘛
近N年一篇文章平均有几个机构参与
小伙伴一起玩!
发文数最多的作者
计算方式为平均值,即一篇文章每位作者的贡献度是一样的。暂时以每人一篇计算。
围观大牛
发文数最多的一作(包括共一)作者
围观希望之星
发文数最多的通讯作者
围观大Boss
发文数最多的国家
明年留学就去那
发文数最多的机构
知道博后去哪里了
发文数最多的中国省份
和经济发展程度有关系吗?
质控:有多少中国省份缺失或者没有转换成中文(计算文章比例)
缺失比例:
没有转换成中文比例
发文数最多的中国城市
质控:有多少中国城市缺失或者没有转换成中文(计算文章比例)
缺失比例:
没有转换成中文比例
发文数最多的中国机构