学术造假者的噩梦:论文图片检测软件研发成功

2020-07-28 14:35:12 浏览数 (1)

7月21日,《Nature》杂志新闻版发布了一篇重磅消息:论文图片查重软件研发成功,软件开发人员对3500篇论文进行了检测,找出24篇论文可能存在图像造假。

在期刊发表领域,对图片的使用和滥用往往是一个我们很难回避的问题。论文写作中“引经据典”是一件习以为常的事情,但是把握不好度,就很容易变成抄袭!论文写作者草率地在其论文中使用已发表过的图片、用同一张图片代表不同的实验条件、修改实验原图等等,都有作假嫌疑。

近些年论文图片造假事件层出不穷

  • 2018年10月,史香林和张卓(美国肯塔基大学医学院华人教授夫妇)合作的 3 篇论文因为重复使用图片被撤稿。
  • 2019年11月,首都医科大学校长饶毅举报9篇文章论文图片造假,指控的问题有两类,一类是指控图片显示的实验结果存在涂抹、拼接痕迹;一类是指控图片显示的实验结果是从别的图片复制、粘贴而来。
  • 2020年7月,《Bioscience Reports就有超过30篇论文因涉嫌图片误用/造假被挂在学术打假网站pubpeer上。
  • 2020年7月华尔街日报报道了中国医院和科研机构的121篇论文图片造假丑闻。121篇来自毫无关联的不同课题组,甚至是完全不同的研究主题,但是都出现了相同的图片,只是简单地加以旋转、裁剪的“粗加工”,甚至图片的注释说明也完全相同!

中国是论文图片造假的重灾区

2016年研究学者Elisabeth博士共检查了20,621篇研究论文,最终发现,里面有782(3.8%)篇至少包含一个图片伪造问题。

根据研究结果,该文章还特别指出在纳入统计的348个国家和地区中,中国是最大的图片造假重灾区。中国的问题图片文章数占总的问题图片文章数的49.52%左右。

8138篇论文中个各地区重复图像的论文比例

图片造假,一经查到论文就会被撤稿,其作者也会名誉扫地。那么到底怎样的图片算图片造假呢?

这些操作,做了就是图像造假

1、简单重复

包含两个或更多个相同面板的图,在同一篇论文中代表不同的实验条件,被归类为简单重复,见下图。

顶部的两个面板看起来与底部的两个面板相同,但是它们代表了不同的实验条件(红色和蓝色框)。

2、重复定位

一个图像相对于另一个图像已经移位,旋转或反转,见下图。

尽管这些面板代表四种不同的实验条件,但四个面板中的三个似乎显示出一个重叠区域(绿色和蓝色框),这表明这些照片实际上是从同一标本中获得的。

3、重复更改

此类别由在同一图像面板或图形之间通过完全或部分复制更改的图像组成,有时彼此相对旋转或反转。

左右面板代表不同的实验条件,并显示不同百分比的细胞群,但是面板之间的同一性区域(彩色框)表明图像已被更改。

目前图片查重方式存在的问题

目前,大多数的论文图片都是通过人工筛查。例如,《nature》的方法是对作者提交的图像进行随机抽查,并要求作者提交未经编辑的图像以供参考;一些期刊,例如《Journal of Cell Biology》和《The EMBO Journal》则是通过人工检查作者提交的手稿中的大多数图像。但这两种检查图片的方式存在一个共同的问题,要么是存在图片造假的文章被遗漏了,要么很耗时。

论文数量庞大,而且经过处理的图片往往都存在相似性,很难依靠人工筛选来发现造假图片。

长期以来,如何更快更准确地发现论文中造假的图像一直是学术期刊编辑们一件头疼的大事。

图片查重软件应运而生

这些年,一些出版商都在试用图像检测软件。但都只是在小范围内的试用,未能实现对大量论文的审查。

2018年,丹尼尔·阿库纳(Daniel Acuna)报告了其开发的图片查重软件,该软件可一次筛选成千上万篇论文来比对图片,包括那些翻转,调整大小或旋转的图像。该软件的开发具有开创性的意义,因为它试图通过该软件发现大量重复图像。

但Acuna开发的软件一直处于试验阶段,并在期刊和研究机构中不断的测试。

在今年6月,Acuna从bioRxiv和medRxiv服务器上下载了3500篇论文,使用该软件提取和比较了总共约21,000张图像。在四个小时内,该软件就找到了大约400个可能重复的图像。

通过比对,大多数图片都没有问题。最终,Acuna选择了24篇认为存在图像问题的论文,在7月份上传到他自己创建的网站上,并在学术打假网站PubPeer上公开标记了这些问题。

一经公布,该测试结果立即引起了轰动。芬兰赫尔辛基大学病毒学家朱塞佩·鲍里斯特里(Giuseppe Ballistreri)写道:“我认为,如果证明该工具准确无误,则应默认在PubMed中实施该工具。

但有一些研究人员说,Acuna的软件完全把它弄错了,并标记了相似但不匹配的图像。例如,达勒姆市杜克大学的学者要求Acuna删除他与他人合著的一篇论文的帖子,因为Acuna通过软件对其论文中的图片做出了错误识别。

接到反馈后,Acuna已从他的网站中删除了大约三分之一的分析,并将该网站上公示的的列表设置为私有访问,以便作者只有从他那里获得访问密码才能看到他的发现。

Acuna说,现在软件确实存在一些问题,例如:PDF文件格式会破坏自动化工具提取图像的能力。

但Acuna打算继续进行图片的自动审查工作。Acuna还表示他会将图像与数据库PubMed上的大量研究论文进行比较。Acuna告诫说:“我希望作者们意识到有人正在检测你论文里的图片。”

参考文献:

The Prevalence of Inappropriate Image Duplication in Biomedical Research Publications.

https://www.nature.com/articles/d41586-020-02161-3

科研猫原创出品,任何形式转载,均需获授权

若您是读者,欢迎分享,无需授权

易法通律师事务所提供版权法律支持

0 人点赞