医疗保健和医学中使用大型语言模型的复杂情况

2024-05-13 10:40:59 浏览数 (1)

今天为大家介绍的是来自Stefan Harrer的一篇论文。大型语言模型(LLMs)是生成式人工智能(AI)应用的关键组成部分,这些应用能够根据文本指令创建包括文本、图像、音频、代码和视频在内的新内容。若无人类的监督、指导以及负责任的设计和操作,这类生成式AI应用将仅仅成为一种有着巨大潜力在前所未有的规模上创建和传播错误信息或有害和不准确内容的制造者。

LLMs能够执行的工作如下:一个人类用户向一个应用程序输入一个“提示”或一系列迭代的连续提示,指示它产生某个特定的输出。这样的提示是用自然语言提出的,可以是几个简单词语组成的短语。这项技术的著名示例包括OpenAI的聊天机器人ChatGPT、Google的聊天机器人LaMDA和Bard,以及Stability AI和OpenAI的图像生成器Stable Diffusion和Dall·E。提示的主题可能性是无穷的,范围可以从“以T.S.艾略特的风格描述如何从烤面包机中取出三明治”这样有趣的问题,到“对于高血压的糖尿病患者来说,最好的营养计划是什么?”这样与消费者健康相关的问题,再到用美国医学执照考试(USMLE)的整个问题子集提示LLMs。LLM将与其他算法一起,立即自动生成对提示的响应,看起来与人类回答者可能产生的输出类似。例如,谷歌和DeepMind专为医学领域定制开发的Med-PaLM LLM最近报告了接近人类临床专家性能水平的USMLE准确性结果。微软开发的、针对生物医学数据进行训练的Bio-GPT LLM,在某些生物医学文本生成和挖掘任务中达到了与人类相当的水平。这一能力,加上人机交互的对话便利性和LLMs能够处理的提示复杂性和变化性几乎无限的范围,是一项令人印象深刻的成就。它让像Siri或Alexa这样的传统自然语言处理系统看起来像石器时代的技术,并引发了研究界、商业行业、媒体和公众对许多生成式AI应用的前所未有的投资和关注热潮,这些应用在不同程度的访问限制下被公众使用。

一种智能的幻觉:大型语言模型的局限性和风险

尽管由LLM驱动的聊天机器人回应看起来可能很复杂,但它们不过是模型对它之前看到的文本中哪些词语先于其他词语出现的广泛统计知识的体现。它们对它们处理的语言一无所知,既不理解它们被输入的提示,也不理解它们的回应。这主要是规模的力量,即大量的训练数据和模型参数的庞大规模,以及在特定主题领域(如医疗保健和医学)中为模型定制开发时对训练数据进行目标化策划,这使得LLMs能够产生通常是正确和令人信服的答案。但别搞错了:LLMs不理解语言(或其他数据形式),因此在2021年的一个学术里程碑论文中被称为“随机鹦鹉”的论文引发了AI世界中激烈的争议。

这引出了关于LLM生成数据内容的三个核心局限性。首先,如果模型在有限过滤的情况下接受了大量互联网数据的训练,它们就会吸收事实以及错误信息,偏见内容和公正内容,有害材料和无害材料一样多。在回答一个提示之前没有办法评估这些标准中的任何一个,LLMs存在风险——并且众多例子已经表明它们已经陷入其中——复制、放大和传播问题内容和错误信息。有时LLM可能会说出真相或产生相关的、可接受的、有时令人惊讶的、有创造性和吸引力的内容。其他时候,它可能会产生或为最明显和危险的错误信息辩护。其次,模型没有办法自己评估,更不用说告知用户它在任何特定时间点是处于哪种状态。它不知道它产生的材料是否包含谎言、误解或不适当的内容。第三,LLMs是概率算法,即当多次提示同一任务或问题时,模型会返回不同的响应,这些响应可能是之前错误或有问题答案的不同版本,或者是错误答案与改进或正确答案的替换,反之亦然,或者是之前正确回答的不同版本或它们的组合。这种行为造成了一个可靠性和可重现性问题,需要对模型操作进行持续的人类监督。

生成式AI是一种实验性技术,尚未准备好投入主流使用

尽管存在这些问题,由LLM驱动的生成式AI并非虚有其表。LLMs可以帮助生成医学报告或基于关键词的预授权信函。文档工作占据了医生四分之一到一半的时间,以及护士五分之一的时间。LLM的使用已经被证明可以减少临床医生或其他医疗保健专业人员在产生文档内容上所花费的时间。因此,LLMs显示出改变临床实践的潜力,使医生能够花更多时间与患者在一起。LLMs也可以帮助医学生通过生成高质量的练习题和解释,或者适当层次地分解复杂概念,以更高效的方式学习。在临床医生与患者的沟通中经常需要简化医学术语,LLMs可以是一个有用的辅助工具。这指向了LLMs在临床试验设计领域可能特别有影响力的应用,其使用可以提高临床试验匹配和临床试验过程的效率。电子健康记录(EHR)包括临床记录是存在的最大、增长最快和信息最丰富的数据源之一,但由于缺乏句法、结构和语义的互操作性和标准化,它们难以进行高效的解释和知识检索。LLMs可以帮助克服这些障碍。

生成式AI在生命科学和生物医学领域也获得了关注,并显示出巨大潜力,能使药物发现和设计更加高效:David Baker利用LLM类型模型进行新型生物分子设计的工作,以及生物技术初创公司Insilico Medicine使用生成式AI工具进行目标发现的有希望的尝试,展示了生成式AI如何有助于大大加快新型蛋白结构的构思和设计。结合我们时代最令人兴奋的AI突破之一,DeepMind的AlphaFold系统能够预测几乎所有存在的蛋白质的结构,因此也能预测其生物功能,我们可能正在看到人类有史以来创建的最具变革性和强大工具之一,以理解和导航健康与生命科学。

将最新一代LLM视为几乎全知的人工医生,无缝接入全部数字化记录的知识,这样的想象令人心动。然而,这种愿景在多个层面上因误解而受到挑战。AI系统的角色是增强人类智能,辅助而非取代人类的决策制定和知识检索。这一点在基于LLM的生成式AI应用中表现得尤为明显:高效知识检索的本质是提出正确的问题,而批判性思维的艺术则依赖于通过评估回应的有效性对世界模型进行探究的能力。LLM无法执行这些任务。它们是强大的中间者,能够高效且创造性地将所有可能的回应缩小到最有可能的那些。但它们无法评估一个提示是否有意义,或者模型的响应是否有任何意义。需要人类参与其中,用自己的认知能力弥补LLM的这些不足。

如何在医疗保健和医学中使生成式AI开花结果:一个道德的、技术的和文化的行动呼吁

我们需要做些什么来引导LLM驱动的生成式AI技术,使其成为医疗、医学和临床领域中有用且安全的工具?当然,仅仅是忙乱地通过增加更多的训练数据和更复杂的神经网络模型来扩大相同的深度学习技术,不会使我们更接近这个目标或达到更高水平的人工智能,更不用说达到人工通用智能(AGI)了。在此时此刻,(生成式)健康AI领域最不需要的就是另一个仓促发布的或任何其他仅仅是规模扩大的LLM。LLM的局限性是系统性的:仅仅增加训练数据的规模和模型参数的数量来创建未来版本的相同模型架构,不会克服它们的缺点,反而可能会放大这些问题。相反,应该关注以下道德、技术和文化方法,这是负责任地(重新)设计使用LLM的生成式AI应用的重点,以使它们成为临床医生和患者用户的有用且安全的工具。

AI伦理学领域建立在几个关键原则之上,这些原则用于AI技术的负责任设计和应用。在一个开创性的2021年报告中,世界卫生组织将这些原则转化为健康领域中AI使用和治理的伦理指导。WHO的这一框架允许识别从将LLMs纳入医疗保健和医学中的生成式AI系统所产生的特定伦理风险。以下部分讨论了这一评估的洞见,解释了关键风险因素,并提出了可能的风险缓解途径:

1. 责任:需要有关伦理发布和使用生成式AI应用的框架。这从广泛教育用户关于技术的能力和风险开始,以及使用它时涉及的责任和敏感性,并应导致广泛理解和接受的使用准则的实施。目前,这一领域在法律上处于模糊状态,好的行为者试图做正确的事情,但坏的行为者似乎通过遵循“先行动后道歉,而非先请求许可”的模式逃脱惩罚,且LLM的性质和能力被许多用户误解。一些社区,例如教育和学术出版社区,已经响应通过在他们的领域内禁止这项技术。试图紧急制动是面对鲜为人知的威胁时一个可以理解的第一反应。但禁止不能且不应该是处理LLMs的解决方案。人们已经发起了几起诉讼,并且目前正在进行中,这些诉讼承诺将为责任、用户和开发者的权利及责任带来一些法律明确性。AI伦理社区已经开始关注生成式AI,并紧急通过一个制衡系统来对其进行监管。一个鸿沟似乎在愿意承担更高风险发布生成式AI的小型创业和成长型创业者与受到公众、监管和声誉审查高度束缚的大型科技公司之间加深,后者加倍强化并推广他们的负责任和可信的AI项目,以符合发布LLM应用的标准。

2. 公平性:需要采取措施来缓解模型偏见。在一个伦理负责的AI开发环境中,这项任务是整个机器学习运维周期的一个重要部分。偏见可以通过多种方式和在几个开发阶段悄然进入AI应用。对于目前已经公开部署的许多生成式AI应用,最明显的忽视解决偏见的行为已经发生,要么是通过未经审视地从互联网抓取训练数据,要么是使用可疑的方法策划训练数据,或对潜在偏见或错误信息的来源关注不足。在这方面,Med-PaLM是一个值得称赞的例外,但ChatGPT和Stable Diffusion则不是。对于它们来说,对抗偏见已经成为一个既是回顾性也是前瞻性的问题:拥有决策权力的人类伦理小组需要审查当前的模型实现,以识别和消除偏见和错误信息的来源。当处理已经使用有偏见或不正确数据训练过的模型时,这是一项艰巨的任务。如何让一个AI系统“忘记”问题内容是一个复杂的研究话题。此外,这样的伦理小组需要持续审计已部署模型的性能,报告并清除它们产生的任何问题内容。这要求模型开发者和提供者与用户社区中的人类专家合作,识别和记录部署模型可能产生的任何错误或有偏见的输出。这样的信息可以用于事实核查和重新训练模型,以及教育用户社区关于使用模型的限制和风险。

3. 数据隐私和选择:需要法律和伦理框架来选择和管理训练数据。人们围绕版权问题,软件工程、创意、出版和艺术领域已经展开了激烈的辩论,几周前还出现了第一起高调的诉讼,这些诉讼涉及由LLMs创造的作品,这些模型是基于人类艺术家的作品进行训练的,而没有获得他们的明确同意来批准使用他们的数据。在医疗保健和医学领域,关于训练数据和AI生成材料的辩论不仅会局限于数据所有权和版权问题,还会涉及责任和同意问题。电子健康记录是最受限制和最敏感的数据源之一,需要被相应地对待,创造潜在有害的健康建议比侵犯艺术家的版权带来的影响更为深远。此外,如前所述,在以证据为驱动的领域,如医疗保健和医学中,选择和获取适当训练数据以开发生成式AI应用不仅涉及法律和伦理,还涉及模型性能相关的影响。

4. 透明度:LLMs将提示与回应桥接起来,但本质上并不具备展示其工作逻辑的能力。这项任务留给了人类操作者,只有当模型提供其数据来源的洞察并将AI生成的内容作为此类标记时,人类操作者才能可靠地完成这项工作。Galactica迅速衰落的核心原因之一是它编造了科学参考文献并在其回应中引用这些参考文献。在学术和研究界,这是不可原谅的重大罪过。由于无法检测的生成式AI内容带来的最大威胁之一是,如果这些内容带有恶意,它们可能会在大规模上污染知识库。在自动聊天机器人的加持下,伪装的生成式AI内容可能成为永久性留下有害标记在知识库上的危险错误信息来源。人们只能想象,在科学真理的掩护下广泛传播的错误信息如何可能影响诸如疫苗接种规则之类的热点争议话题。据报道,OpenAI计划引入一个“水印”功能,标记由ChatGPT创建的内容。这一努力的效率令人怀疑。DetectGPT是斯坦福大学目前正在开发的一个实验性AI工具,它能够自动检测文本样本是由人类还是使用LLM的聊天机器人创建的。据报道,该程序能够在五个流行的LLM中,对95%的测试案例正确判断作者身份,但需要更多的工作来增强DetectGPT抵抗各种规避策略的能力。将人类纳入生成式AI的机器学习运维周期带来了自身的伦理挑战:检测有害内容可能会使人类数据标注者面临心理健康风险,且必须在大规模上审查的大量数据可能导致类似于工业革命早期装配线上看到的剥削性工作条件。在以证据为基础的领域,如医疗保健和医学中,数据需要由高度熟练的临床领域专家策划,这导致经常被低估的隐形临床劳动成本。随着生成式AI系统变得更加普及,人类进行数据策划的工作量和责任方面必须得到解决,以避免瓶颈,并保持人类专家参与数据选择和审查的积极性。

5. 可解释性:最大程度的可解释性应该是生成式AI系统的一个关键设计特性,因为它为人类用户和操作者提供了一个重要的数据点,这些用户和操作者的角色是验证AI工作的正确性和合理性。透明且可解释的生成式AI系统可以被赋予一个真实性指数,这将作为评估LLM在协助临床医生和患者时的可信度的一个重要度量。然而,对这种指数的重要性的认识在AI领域直到2022年才刚刚浮现。对生成式AI解决方案的真实性指数的研究应该是医疗保健和医学领域内每个LLM开发计划的核心。话虽如此,该领域已经建立了许多项目来构建、测试和应用框架和工具,用于开发可信的AI系统。例如,IBM的“AI 360 Toolkit”提供了行业级工具来评估和提高AI系统的公平性、可解释性和鲁棒性。谷歌在其AI原则计划中引入了类似的工具:模型修正库、学习可解释性工具和了解你的数据目录,允许识别偏见,提高模型的公平性,从模型输出追溯到训练数据的错误,并审查数据的原始内容和标签。可解释性并不是确定AI系统产生的洞察在临床上有用性的唯一标准:虽然高度的可解释性是可取的,但在不完全能够解释底层AI系统如何达到这些结论的情况下,使用对高维数据的不可知学习来产生临床上有用的结论是可能的。这些案例说明了人类专家验证和审查AI生成的洞察在将其转化为行动之前的至关重要性。但它们也突显了AI技术可以协助人类选择AI驱动的临床干预中的终点,这是在没有AI的帮助下他们可能不会考虑的。

6. 价值与目标一致性:生成式AI特别强调了AI所谓的“对齐问题”:它描述了当机器不遵循或违反其人类创造者和用户的价值观和目的时出现的伦理和存在性风险。出现对齐问题的情况需要一方面有一个人类价值系统,另一方面需要明确定义AI系统应该做什么以及为什么。然后解决对齐问题需要能够将价值观编程到AI系统中,并控制其对这些价值观的遵守。所有这些方面都需要成为医疗保健和医学中开发LLM驱动的生成式AI应用的最前沿。医学界有一套强大的价值观,正如《希波克拉底誓言》所述,"不造成伤害"的原则应该是探索和应用生成式AI以协助健康和福祉管理的所有活动的中心。

除了这些伦理设计特性之外,还有一些概念上的可能,通过技术上改变使用LLM的生成式AI系统的架构,使它们走上语言理解和适用于医疗保健应用的道路。最根本也是最具挑战性的任务之一是开发和整合所谓的“世界模型”。在AI与认知神经科学交叉领域,这是一个有争议且被广泛讨论的研究领域,关于如何设计和操作这样的世界模型有几种方法。归根结底,人类开发、完善并持续应用它们来理解和操纵世界:它们使我们能够计划、推理、学习并具备常识。在AI研究的世界中,这些认知能力目前——并且一段时间以来——被其中一项的主导所掩盖:(深度)学习。为了开发真正智能的人工系统,该领域需要不仅仅是超越学习,而且采取更细腻的方法来研究和开发智能的所有方面。生成式AI技术和LLMs既展示了如何通过加速AI的一个狭窄方面可以产生一个极具前景和强大的工具但最终是愚蠢的系统,也是一个行动呼吁和独特机会,通过多样化AI研究领域来缓解这一结果。认知心理学的分析方法已被用来阐明LLMs的工作原理,指出它们的认知限制,但也可能为将世界的认知模型链接到它们中打开了途径。

除了将LLM驱动的聊天机器人转变为医疗保健领域中人类用户的有用且可信工具的伦理和技术方法外,还应考虑文化层面的因素。经常被宣扬的硅谷范式“快速行动,打破常规”并不适用于医疗保健领域。这使得健康AI成为新的断层,不同的构想、开发和部署新技术的文化倾向于冲突。成功克服创新转移的信任和接受障碍需要所有涉及方之间的紧密合作和沟通:临床医生和患者用户、技术开发者和监管者。要使生成式AI系统和LLMs成为临床医生和患者的有用决策支持和知识检索服务,意味着需要花时间共同评估机会和风险景观,并根据上述技术和伦理主题开发研究、试验、实施和审计标准。在健康科技领域过早或仓促发布AI技术后,往往没有第二次机会来做对事情:用户和监管者的信任很容易失去,而且非常难以重新获得。

编译 | 曾全晨

审稿 | 王建民

参考资料

Harrer, S. (2023). Attention is not all you need: the complicated case of ethically using large language models in healthcare and medicine. EBioMedicine, 90.

0 人点赞