Journal: GigaScience
Accepted: 12 April 2019
今年IF:4.688
去年IF:7.267
前言
经济学中有一个非常著名的古德哈特定律(Goodhart’s Law):
当一个度量指标成为目标时,它就不再是一个好的度量指标。
这个定律在无形中影响着作者日常生活中的许多系统,包括教育、生物等决策系统。
如教育系统中,当考试分数成为教学过程的目标时,就会出现唯分数论,整个教育过程都会被扭曲,最后创造出来所谓高分低能的做题机器。这样就偏离了教育原来的目的。
而在学术出版界,巨大的变化正在发生,每年的论文数量都在不断增加,出版模式也在发生变化。然而,用于衡量学术成就的指标,如论文数量、引用数量和影响因子,几十年来都没有改变。此外最近的研究表明,这些度量指标已经成为科研人员追求的目标,并遵循古德哈特定律。
在本文的研究中,作者分析了> 1.2亿篇论文,以考察学术出版界在过去一个世纪里是如何演变的,并对生物学领域进行了更深入的研究。研究表明,基于引用的评价方法的有效性正在受到损害,其有效性正在下降。特别是由于作者列表变长、论文变短以及论文数量激增,论文数量已不再是一个好的衡量标准。
基于引用的度量标准,如引用数和h指数,同样受到大量论文、自我引用和冗长参考文献的影响。由于顶级期刊上发表的论文数量激增,尤其是来自同一作者群体的论文,期刊影响因素等指标也不再是好的衡量标准。
此外,通过分析>2,600的研究领域,发现基于引用的度量方法对比较不同领域的研究人员没有好处,甚至对同一领域的研究人员也没有好处。
本文较长,想节省时间直接拖到最下面看核心的9条结果即可。
由于文章太长,我借助了翻译软件进行翻译,特此说明。
在过去的一个世纪里,学术出版界在数量和速度上发生了巨大的变化。论文数量从1980年的< 100万篇急剧增加,2014年发表论文700万篇。
目前论文发表主要在两个平台。一是预印本,例如arXiv, 2006年9月发布4275篇论文,而到了2018年11月发布11,973篇论文。又如现在每月有100万篇论文从bioRxiv被下载。
当前另一个的趋势是在大型期刊上发表论文,如2017年的第一季度,发表在PLoS One和Scientific Reports上的论文就>1.1万篇。
越来越多的论文是由数百甚至数千名作者撰写的。这一现象被称为超作者(hyperauthorship)或作者膨胀(authorinflation)。虽然论文的平均作者数量随着时间的推移而增加,但并不是所有的作者都对论文有显著的贡献。此外,名誉作家和幽灵作家(honorary and ghost authors)非常普遍。
前人分析表明论文标题冒号所占比例在增加,标题的长度也在增加。此外,标题积极、措辞有趣、没有文字游戏的文章在网上更受关注。
除了论文标题长度的增加,还发现工程期刊文章的参考文献在变长。
对于处于早期职业生涯的研究人员来说,论文总数和合作者的平均数量都随着时间的推移而增加。但将发表率调整为考虑到共同作者身份时,所有学科的科学家的发表率并没有整体上升,实际上大部分都下降了。
从1900年到2015年,论文的作者列表的平均长度增加了两倍。
多年来,人们提出了各种衡量论文、期刊重要性和作者影响力的指标。最直接和常用的测量方法之一是简单地计算论文数量。
另一个常见的度量标准是引用数,要么是某篇特定论文的引用数,要么是所有作者论文的总引用数。
60年前, Eugene Garfeld提出了影响因子(impact factor),这是评估期刊重要性的最知名、也是使用最多的方法之一。衡量研究人员产出或期刊影响力的另一个常用指标是h指数,它衡量的是作者或期刊中至少有h篇论文被引用的数量。
h指数在生命科学领域并不适用,在生命科学领域,作者在论文中的位置通常取决于作者的贡献。为了解决这一问题,已经提出了各种措施,如c-index和修订后的h-index。这些措施根据合著者的顺序给予作者更高的权重。
此外还有一些其他替代的措施。例如,q指数和w指数是h指数的替代品。SCImago Journal Rank (SJR indicator) 和 simple citation distributions也可作为影响因素的替代方案。
上述措施已成为衡量学术成功的标准。已有研究表明,这些因素遵循古德哈特定律,这些指标现在已经成为研究人员的目标,并存在很多方法可以操控各种指标,例如增加自引的数量,通过将研究切割成可被发表的多篇文章来增加发表的数量,索引错误的论文等。
学术界已经成为一个可以导致不道德行为的超竞争环境(hypercompetitive environment)。这种行为背后的驱动力是为了操纵衡量研究影响的标准,从而增加研究的收益。
作者研究的目的是利用大数据来检验学术出版中常用的基于引用的度量标准的有效性。具体来说即古德哈特定律是否适用:研究人员是否过于专注于以高质量的相关研究为代价,简单地实现某些目标指标。
为了实现这一目标,作者开发了一个开放源代码的框架来分析来自多个大型数据集的数据,这些数据集包含了> 1.2亿份论文,有5.28亿篇参考文献和3500万名作者,时间跨度从自19世纪至今。
部分图片结果如下。正文一共有21个图,参考材料还有36个图。感兴趣的自己看吧,这里只截取部分。
论文数量呈指数增加
排名前9位的非英语论文。越来越多的论文使用非英语标题。蓝色是中国的。日语竟然是最多的。
平均标题长度随时间的变化。一篇论文的平均标题长度从8.71字增加到11.83字。此外,每个标题词的平均字数从5.95个字符增加到6.6个字符。
摘要字数随时间的分布。随着时间的推移,论文摘要变得越来越长。
自我引用的平均数和最大值。自我引用的平均次数和最大次数都随着时间的推移而增加。
随着时间的推移,论文的平均长度和页数都有所下降。
5年以上未被引用的论文(除自我引用外)。5年后未被引用的论文比例随时间下降。然而,2009年发表的所有论文中,有72.1%在5年后都没有被引用。
研究人员成为为第一作的时间。随着时间的推移,研究人员作为第一作者的平均比例下降了。此外,在相同的时间间隔内,最近几代研究人员成为第一作者的时间比例比上一代有所下降。
顶级期刊的平均第一作者和最后作者的年龄。第一个和最后一个作者的平均年龄都急剧增长
总结一下
作者发现近几十年来,学术论文的结构发生了明显的变化。论文的平均总长度变短了,标题、摘要和引用都变长了,包含关键词的论文数量也有了显著增加,每篇论文中关键词的平均数量也有了显著增加。此外,每篇论文的平均作者人数和中位数也急剧增加。
作者总结出9个重要的结果
NO1
首先,本文结果支持古德哈特定律,因为涉及到学术出版的衡量指标(如论文数量、被引用次数、h指数和影响因素)已经成为目标,现在它们不再是好的衡量指标。通过缩短论文篇幅并与更多的作者合作,研究人员能够在相同的时间内写出更多的论文。
作者可以使用较长的标题和摘要,或者在标题中使用问号或感叹号,使他们的论文更有吸引力。更多的读者被这篇文章所吸引,理想情况下他们就会引用它。
这些结果支持了作者的假设,即引用数量已经成为一个目标。学术论文的性质发生了变化,其目的是为了赢得对学术目标的关注。
NO2
其次,作者观察到随着时间的推移,按字母顺序列出作者的论文越来越少,尤其是作者数量相对较多的论文。这些结果可能表明作者的序号在作者列表中的重要性增加,这可能反映了作者对研究的贡献。这一结果还表明评估个人研究贡献的措施正越来越重要。
NO3
第三,作者发现随着时间的推移,多学科(multidisciplinary)论文的数量急剧增加。
NO4
第四,自引的最大和平均数量急剧增加。很明显引用数量已经成为一些研究者的目标,他们引用自己的论文几十甚至几百次。研究人员在他们的新研究中引用他们以前的工作的趋势普遍增加。
通过文章发表后分析5年内未被引用的论文比例,作者发现大量的论文(>所有论文的72%)根本没有被引用。显然许多资源都花在了影响有限的论文上。缺乏引用可能表明,研究人员正在发表更多质量较差的论文,以增加他们的总发表数量。
此外通过研究论文的引用分布,作者观察到不同的年代有非常不同的引用分布。
NO5
第五,作者观察到发表论文的新研究人员的数量呈指数增长。年轻的研究人员发表的论文往往比前几代的研究人员多得多。
此外,年轻的研究人员往往在职业生涯开始时就在会议上发表他们的研究成果,比过去几十年年长的研究人员发表的要多得多。且年轻人在职业生涯初期往往比年长的人合作得更多。
此外,目前研究人员在其职业生涯早期作为第一作者的平均比例远远低于前几代人。
这些结果强调了近年来学术界的变化。在一种要么发表,要么灭亡(publish or perish)的文化中,研究人员通过增加合作(并被添加到更多的作者列表中)和发表比过去更多的会议论文来发表更多的论文。
然而,从作为第一作者的研究人员的整体下降可以看出,年轻人可能在他们的职业生涯中发表了更多的论文,但对每篇论文的贡献却更少。
NO6
第六,近年来排名活跃的期刊数量快速增长。此外期刊发表的论文比过去多,几十家期刊每年发表的论文达到了> 1000篇。
随着活跃期刊数量的增加,作者发现期刊的影响力因素发生了迅速的变化:
(i)第一(25%)和第二四分位数(50%)发表的论文数量急剧增加,今天绝大多数论文都是在这写四分位数上发表的;
(ii)期刊平均h指数和中值h指数大幅下降;
(iii)SCImago Journal Ranking和被引用的平均数量显著增加。
随着这些重大变化,评价杂志的四分位数和h指数正在迅速失去意义和价值。此外,随着期刊数量的增多,研究人员可以货比三家(shop around)地寻找影响力较大的期刊,将一篇被拒绝的论文从一份期刊提交到另一份期刊,然后反复进行评审。这些重复的审稿浪费时间,而且从长远来看,审稿的负担可能会影响审稿的质量。
作者建议让所有的审稿意见都在网上公开。并且我们应该考虑出版期刊的功能,有必要存在20,000种期刊来发表世界上所有的论文么?
NO7
第七,一些期刊的论文数量随着作者的职业年龄和归国作者的比例急剧增加。近年来,向Nature等顶级期刊投稿的数量大幅增加。然而许多此类期刊主要发表的论文中,有≥1名作者以前在该期刊上发表过。
作者认为,这种情况也是古德哈特定律的结果。由于目标是影响因子,研究人员正在积极寻找影响因子高的期刊。因此每年发送到这些顶级期刊的论文数量已经显著增加。而且由于提交的论文数量太多,这些期刊的编辑可能会偏向保守和安全而不是风险,只选择由知名、有经验的研究人员撰写的论文。
NO8
第八,作者观察到不同的领域具有完全不同的特征。有些领域每年发表数十万篇论文,而另一些领域每年只发表数千篇。此外,较大差异也反映在其他被检验的特征上,如平均参考文献数量、平均和中位数引用数量。
NO9
最后,通过对>2,600种不同尺度领域的检测,作者发现不同领域的论文在性质上存在着巨大的差异:一些研究领域增长显著,而另一些则没有。即使是同一子领域的研究领域也呈现出广泛的属性,包括每篇论文的参考文献数量和每个研究领域的引用中位数。
这些结果表明,在比较了不同领域的研究人员,甚至是比较相同子领域的研究人员时,引用数、h指数和影响因子等指标是没有用的。
这些结果强调,使用基于引用的方法来比较不同的学术实体,就像把苹果和桔子进行比较一样,是对科学家的歧视(discriminate between scientists)。
此外,使用这些衡量标准来比较学术实体,可能会极大地影响资源的分配,从而损害液体写研究。例如,为了世界排名,大学可能会选择投资于计算机科学和生物学的教员,而不是投资于经济学和心理学等较少被引用的研究领域的教员等。
看到这的读者,恭喜你坚持了下来~
这项研究给我的感受就是四个字:深有体会。
虽然还是个学生,在国内这个大环境和本领域的小环境中,对于此文很多的结果其实早就相同的感受。但深处最底层,又能怎么办呢。
我现在每天最大的愿望就是去北林吃饭的时候能买到饭卡,已经成功的达到了和想吃pizza这位仁兄的同一境界。
—END—
完