编译 | 曾全晨 审稿 | 王建民
今天为大家介绍的是来自Gemma Conroy的一篇论文。
当放射科医生Domenico Mastrodicasa在写研究论文时遇到困境,他会转向ChatGPT,这是一个几乎能在几秒内流利回应任何问题的聊天机器人。他说:“我把它当作一个发声板。”Mastrodicasa在西雅图的华盛顿大学医学院工作。“有了它,我能更快地准备好可以发表的手稿。”Mastrodicasa只是众多试验使用生成型人工智能(AI)工具写文本或代码的研究者之一。他购买了基于大型语言模型GPT-4的ChatGPT Plus订阅版本,并每周使用它几次。他发现这个工具特别有助于提供更清晰的表达方法。尽管《自然》杂志的一项调查显示,经常使用大型语言模型的科学家仍然是少数,但许多人预期生成型AI工具将成为撰写论文、同行评审报告和资助申请的常规助手。
AI可能会以多种方式改变科学交流和出版。科学出版商已经开始尝试使用生成型AI进行科研搜索,编辑和快速摘要论文。许多研究者认为,非英语为母语的人最能从这些工具中受益。有些人认为生成型AI为科学家提供了一个重新考虑如何询问和总结实验结果的方法——他们可以使用大型语言模型完成大部分这样的工作,这意味着少写论文,多做实验。“真正的目标不是为了写论文,而是为了做科学研究。”加利福尼亚大学伯克利分校的计算生物学家Michael Eisen如是说,他同时也是《eLife》杂志的主编。他预测,生成型AI工具甚至可能从根本上改变科学论文的本质。但是,信息的不准确性和虚假性对这一愿景构成了威胁。大型语言模型只是为了生成在风格上可信的输出,这些输出符合它们的输入模式,而不是为了生产准确的信息。出版商担心,如果这种工具的使用增加,可能会导致更多的低质量或充满错误的手稿,甚至可能有大量的AI辅助的假冒文献。“像这样的颠覆性事物确实令人担忧。”英国布里斯托尔IOP出版公司的Laura Feetham说,她负责监督该出版社的物理科学期刊的同行评审。
伪造的洪流
关于生成型AI的潜在影响,科学出版商和其他相关方都表示关切。伦敦研究分析公司Digital Science的首席执行官Daniel Hook表示,生成型AI工具的普及性可能使制作低质量论文变得更容易,甚至可能威胁到研究的诚实性。Hook说:“出版商有充分的理由感到担忧。”在某些情况下,研究者已经承认使用ChatGPT帮助撰写论文,但并未披露这一事实。他们被发现的原因是忘记删除使用ChatGPT的明显迹象。理想情况下,出版商应能检测到由大型语言模型生成的文本。但实际上,AI检测工具迄今未能可靠地筛选出此类文本,同时避免误标人写的文章为AI产物。
尽管商业LLM的开发者正在研究如何为LLM生成的输出添加水印以便识别,但目前还没有公司为文本推出这一功能。牛津大学的法律学者Sandra Wachter表示,任何水印也可能被移除。她希望全球的立法者会要求为LLM披露或加水印,并使移除水印成为非法行为。出版商对此问题的处理方式要么是完全禁止使用LLM(如Science的出版商美国科学促进协会所做的),要么是坚持透明度(如Nature和许多其他杂志的政策)。Giovanni Cacciamani表示,一项研究发现,截至5月,17%的出版商和70%的杂志发布了关于如何使用生成型AI的指导方针,尽管他们对工具的应用方式有所不同。许多编辑担心生成型AI可能被用来更容易地生产伪造但令人信服的文章。被称为"论文工厂"的公司,它们为希望提高其发表产出的研究者创建和销售手稿或作者身份,可能从中获利。《Science》的一位发言人告诉《Nature》,像ChatGPT这样的LLM可能会加剧论文工厂的问题。对这些担忧的一种回应可能是,一些杂志加强其验证作者真实性并提交其研究的方法。Wachter说:“对杂志来说,了解某人是否真的做了他们声称的事情将变得很重要。”在德国海德堡的EMBO Press出版社,作者必须使用可验证的机构电子邮件地址提交稿件,编辑人员会与作者和评审者进行视频通话,该出版社的科学出版物负责人Bernd Pulverer如是说。但他补充说,研究机构和资金提供者也需要更密切地监控其员工和资助接受者的产出。他说:“这不是完全可以委派给杂志的事情。”
公平vs不公平
当《Nature》调查研究者们对于生成型AI可能为科学带来的最大好处是什么时,最受欢迎的答案是它将帮助那些英语不是他们的母语的研究者。澳大利亚布里斯班昆士兰大学的保护生物学家Tatsuya Amano表示:“AI工具的使用可以提高科学领域的公平性。”Amano和他的同事们调查了900多名曾用英语发表过至少一篇论文的环境科学家。在初级研究者中,非英语母语者表示,由于写作问题,他们的论文被拒绝的频率是英语母语者的两倍以上,后者在撰写他们的投稿时也花费的时间更少。Amano表示,ChatGPT和类似的工具对这些研究者来说可能是一个“巨大的帮助”。Amano(日语为母语)已经尝试使用ChatGPT,并表示这个过程与与英语为母语的同事合作类似,尽管这个工具的建议有时不尽如人意。他在三月份与他人合著了《Science》杂志的一篇社论,该杂志随后禁止使用生成式AI工具。他认为,只要作者公开他们使用AI的情况,比如在AI编辑的版本旁边包含原稿,这些工具就可以使科学出版变得更加公平。LLMs(大型语言模型)远非第一个可以改进写作的AI辅助软件。但东京大学的AI研究员Irene Li表示,生成式AI简单得多,也更有灵活性。她之前使用Grammarly 来提高她的英文写作,但现在已经转用ChatGPT,因为它更通用,长期来看也更具价值;她无需支付多个工具的费用,只需订阅一个即可满足所有需求。她说:“这省了很多时间。”然而,LLMs的开发方式可能会加剧不平等现象,美国马里兰州洛克维尔的美国调查病理学会的科学外联主任、AI伦理学家Chhavi Chauhan表示。Chauhan担心,未来一些免费的LLMs可能会因为开发和运行的成本而变得昂贵,而如果出版商使用AI驱动的检测工具,他们更有可能错误地将非英语为母语的作者写的文本标记为AI。7月的一项研究发现,当前代的GPT检测器确实出现了这种情况。她说:“我们完全忽视了这些生成式AI模型将产生的不平等现象。”
同行评审的挑战
LLMs(大型语言模型)也可能对同行评审者有益。自从使用ChatGPT Plus作为助手后,Mastrodicasa表示他能够接受更多的评审请求,使用LLM来完善他的评论,尽管他没有将手稿或其中的任何信息上传到在线工具。他说:“当我已经有一个草稿时,我可以在几小时而不是几天内对其进行完善。我认为这将不可避免地成为我们工具箱的一部分。”德国耶拿的Friedrich Schiller大学的化学信息学研究员Christoph Steinbeck发现ChatGPT Plus在为他正在审查的预印本创建快速摘要时非常有用。他指出,预印本已经在线,因此机密性不是问题。
一个主要的担忧是,研究人员可能过于依赖ChatGPT来快速完成评审,虽然直接要求LLM审查手稿的简单行为可能只会产生摘要和文本编辑建议等有限的价值,伊利诺伊州芝加哥的西北大学Galter健康科学图书馆和学习中心研究研究伦理和完整性的Mohammad Hosseini这样表示。对LLMs在同行评审中的早期担忧主要是关于机密性。由于担心工作可能被反馈到LLM的训练数据集中,违反保持工作机密的合同条款,包括Elsevier、Taylor & Francis和IOP出版社在内的几家出版社已禁止研究人员将手稿和文本部分上传到生成性AI平台上以产生同行评审报告。六月,美国国家健康研究院禁止使用ChatGPT和其他生成性AI工具进行资金的同行评审,原因是对机密性的担忧。两周后,澳大利亚研究委员会也出于同样的原因,在资金评审期间禁止使用生成性AI,此后,似乎是由ChatGPT编写的一些评审在网上出现。
伦理担忧
然而,一些研究者认为,LLMs在伦理上太过模糊,不应纳入科学出版过程中。一个主要的担忧在于LLMs的工作方式:它们在没有考虑偏见、同意或版权的情况下浏览互联网内容,荷兰尼梅亨的Radboud大学的认知科学家Iris van Rooij说。她还补充说,生成性AI实际上是“设计出来的自动化抄袭”,因为用户不知道这样的工具从哪里获取它们的信息。如果研究者更多地意识到这个问题,她认为他们不会想要使用生成性AI工具。一些新闻机构已经阻止了ChatGPT的机器人在他们的网站上进行搜索,媒体报道暗示一些公司正在考虑提起诉讼。虽然科学出版商在公开场合还没有走到这一步,但Wiley告诉《自然》杂志,它正在“密切关注业界报告和诉讼,称生成性AI模型在不考虑该信息上的任何现有限制的情况下,用于训练目的而收集受保护的材料”。该出版商还指出,它已经呼吁加强监管监督,包括对LLMs提供商的透明度和审计义务。
变革性的变化
Patrick Mineault, 加拿大蒙特利尔的Mila——魁北克AI研究所的高级机器学习科学家表示,从更广泛的角度看,生成性AI工具有可能改变研究的出版和传播方式。这可能意味着研究将以机器而不是人类能轻易阅读的方式发布。在LLMs的时代,Eisen设想了一个未来,其中发现以交互式的“按需论文”格式发布,而不是静态的、一刀切的产品。在这种模型中,用户可以使用生成性AI工具询问关于实验、数据和分析的问题,这将允许他们深入了解与他们最相关的研究方面。它还允许用户访问根据他们的需求定制的结果描述。Eisen说:“我认为我们停止使用单一叙事作为人们与科学研究结果之间的界面只是时间问题。”像Elicit这样的公司已经推出了使用LLMs为研究者提供自然语言答案的搜索工具;在八月,Elsevier推出了其自己的工具Scopus AI的试验版本,以快速总结研究主题。Mineault补充说,生成性AI工具可能会改变研究者如何进行元分析和评论。Mineault看到的最大的人工生成的评论包括大约1600篇论文,但与生成性AI一起工作可能会走得更远。他说:“这只是整个科学文献的一个非常微小的部分。”问题是,现在科学文献中有多少东西可以被利用?”
参考资料
Gemma Conroy (2023). HOW GENERATIVE AI COULD DISRUPT SCIENTIFIC PUBLISHING. Nature 622, 234-236 (2023) doi:
https://doi.org/10.1038/d41586-023-03144-w