机器之心报道
编辑:杜伟
时隔三个月后,智源研究院对涉嫌抄袭的 AI 大模型综述研究给出了调查和处理结果。
今年 4 月 13 日,智源研究院一篇拥有 100 位作者署名的综述研究《A Roadmap for Big Model》被质疑抄袭了多篇论文内容,引发国内外学者和社区的广泛关注与讨论。
当日,智源研究院即发布了《关于 “A Roadmap for Big Model” 综述报告问题的致歉信》,并表示:「对这一情况,研究院立即组织内部调查,确认部分文章存在问题后,已启动邀请第三方专家开展独立审查,并进行相关追责。」
4 月 14 日,智源研究院理事会委托中国计算机学会作为第三方开展独立调查,还就 IEEE 手册条款的理解和抄袭严重程度的认定,通过邮件咨询了 IEEE 学术出版规范负责人的意见。
7 月 15 日,智源研究院在其官网发布了《关于 “A Roadmap for Big Model” 综述报告问题调查和处理的通报》。根据 CCF 调查报告和 IEEE 专家反馈,研究院与 16 篇文章的通讯作者进行了沟通,对于存在问题文章的作者责任进行了核查与认定。
如下为通报全文:
1. 组织失察责任认定
该综述报告由智源研究院大模型研究中心牵头组织、邀请国内外 19 个机构共 100 位科研人员分别撰写的 16 篇独立专题文章组成,每篇文章都有对应的撰写作者和通讯作者(除第 12 篇外),所有作者共同署名整个报告(这种组织模式参考了斯坦福大学“On the Opportunities and Risks of Foundation Models” (https://arxiv.org/pdf/2108.07258v2.pdf) 一文的编撰方式)。综述报告首先上传至预印本网站 arXiv,原计划经过修改完善后再正式出版。
智源研究院大模型研究中心作为组织单位,对综述报告撰写中可能存在的风险隐患缺少充分考虑,未采取必要措施避免相关问题出现,对整个事件负有监督失察责任。
综述报告的第一作者(智源大模型研究中心人员)未严格按照学术出版规范的流程执行,在未与其他作者确认的情况下,于 2022 年 3 月 26 日将综述报告上传至 arXiv,负有主要组织责任。
2. 两处抄袭的责任认定
综述报告 10 处被质疑片段中,2 处属于抄袭。
第 2 篇文章的 2.3.1 节存在共计 179 个单词的多句重复,在最开始明确标注了引用文献,但未明确区别引用文字,且篇幅较大,属于《学术出版规范 期刊学术不端行为界定》“三、论文作者学术不端行为类型”中的 “1.5 文字表述剽窃”:“成段使用他人已发表文献中的文字表述,虽然进行了引注,但对所使用文字不加引号,或者不改变字体,或者不使用特定的排列方式显示”,达到《IEEE 出版物服务和产品委员会操作手册》“对不同等级的抄袭行为进行判定的指南” 中“第 5 级”(认定要点为“对一篇文章的主要部分逐字复制,虽有引注但缺乏清晰区分”。说明:抄袭共分 5 级,第 1 级最严重,第 5 级最轻微),由该文章的第二作者(智源大模型研究中心人员)完成,应负直接责任。该文章的通讯作者(智源大模型研究中心人员),未对该文章进行有效审查,应负失察责任。该篇文章第 2.4.3 节存在多句重复,有明确参考文献标注,属于规范引用。参与文章的其他作者撰写的部分未发现抄袭。
第 8 篇文章的 8.3.1 节存在 74 个单词的整句重复,无明确引用,属于抄袭,相关段落由该文章第一作者(智源大模型研究中心人员)完成,应负直接责任。该文章其他作者是文章初稿完成人,初稿不涉及被质疑内容。该文章第一作者未经通讯作者及其他作者同意将自己加为第一作者并对文章进行了大篇幅修改,文章发布前未与通讯作者确认,因此通讯作者和其他作者均没有责任。
上述两名作者已经按照 IEEE 手册的对应纠正措施向原作者致歉,并得到原作者谅解,履行了应该承担的相关学术责任。
3. 四处引用不规范的责任认定
除前述 2 处抄袭外,综述报告 10 处被质疑片段中,尚有部分片段属于引用不规范,但不构成抄袭,其他被质疑部分属于规范引用。具体认定如下:
第 10 篇文章存在少数重复文字,是在明确添加标注引用参考文献情况下的转述,属于规范引用。
第 12 篇文章的 12.2.3 节存在共计 36 个单词的重复,无整句重复,相关内容由该文章第二作者完成。重复内容包括两个部分,一部分包含 17 个重复单词,属于规范引用参考文献;另一部分包含 19 个重复单词,在对相关领域介绍时,引用了其他论文引言部分对于本领域的总结,但在本句中未标注引用参考文献,属于引用不规范,但不构成抄袭。该文章无通讯作者,其他作者是文章的完成人,所撰写的部分未发现抄袭。
第 14 篇文章 14.2.2 节一处多句 63 个单词重复,有明确参考文献标注,属于规范引用。14.2.3 节一处一句 30 个单词重复,有明确参考文献标注,属于规范引用。14.2.2 节另存在一处一句 29 个单词的重复,文字上指明了引用对象,但本句没有直接添加引用,相关段落由该文章的第二作者完成;14.2.3 节另存在一处一句 27 个单词重复,在 14.2.3 节中有参考文献标注,在本句中没有直接标注,相关段落由该文章的第四作者完成,上述两处属于引用不规范,但不构成抄袭。该文章其他作者撰写的部分未发现抄袭。
第 16 篇文章 16.1 节一处存在多句重复,相关段落由第二作者完成。该段落起始处对参考文献有明确引用,后续其他句子存在本句未直接标注的情形,属于引用不规范,但不构成抄袭。该文章其他作者撰写的部分未发现抄袭。
综述报告第 3、4、5、6、7、9、11、13、15、17 篇文章未发现抄袭。
4. 处理和整改情况通报
智源研究院在质疑发生后,对照国家新闻出版署《学术出版规范 期刊学术不端行文界定》标准并参照《IEEE 出版物服务和产品委员会操作手册》对抄袭的认定指南,从严要求,安排可能存在问题文章的作者向原作者进行了书面致歉,均已得到原作者反馈和谅解。同时,安排第一作者完成从 arXiv 撤稿。上述的抄袭和引用不规范的调查结论也已通知所有作者并获得确认。对照《IEEE 出版物服务和产品委员会操作手册》对抄袭行为的处罚措施,智源研究院和相关责任人已经从严履行了应该承担的相关学术责任。
鉴于上述两处抄袭和组织失察责任人均为智源研究院大模型研究中心人员,智源研究院决定重组该部门,上述相关责任人均已主动离职。
除上述智源研究院相关责任人外,综述报告其他所有作者没有抄袭及学术不端行为。在此对此次事件给这些作者造成的负面影响和困扰表示诚挚歉意!
针对此次事件发现的论文发表流程中的风险漏洞,智源研究院已经整改了论文发表流程,并修订完善了科研诚信与学风建设制度。后续,智源研究院计划与学界和业界合作,制定更严谨的文献引用规范,开发论文和代码开源检测工具和系统,避免再次出现类似问题。
再次诚挚感谢各界朋友对智源研究院的监督和批评!
原文链接:https://www.baai.ac.cn/portal/article/index/cid/5/id/504.html
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com