编译 | 曾全晨 审稿 | 王建民
今天为大家介绍的是来自Jean-Philippe Vert的一篇讨论生成式AI对药物发现领域的影响的论文。在ChatGPT发布仅仅几个月之后,大型语言模型(LLMs)和生成式人工智能(AI)对艺术、营销、新闻、文案、法律和软件工程等领域的影响已经开始显现。这些技术利用深度学习模型在大量数据上训练,能够生成新的文本或图像。虽然它们只是被训练来捕捉训练数据中的统计规律,但一旦训练完成,它们可以以令人信服的方式模仿人类语言,生成逼真的图像、声音或软件,甚至解决涉及更高认知功能的推理等任务,这一能力令世人惊讶。因此,它们也有望在科学家和工程师理解生物学、发现和开发新疗法方面引发颠覆性变革。
首先,现有的大型语言模型已经成为非凡的生产力工具,使数据科学家和工程师,包括从事医学研究和药物发现的人员,能够更高效地完成工作。像GitHub Copilot和ChatGPT这样的工具正迅速被软件工程团队采用,以更快地编写高质量的代码,而数据科学家也越来越多地借助基于人工智能的助手来生成图表、起草报告和演示文稿。目前的大型语言模型还可以帮助处理更技术性和复杂的任务,例如解决跨多个数据中心的数据协调问题,该问题在很大程度上依赖人工数据处理。特别是,处理异构多队列数据集的越来越流行的方法之一是使用生成式人工智能合成属于缺失模态或领域的样本,将数据协调视为风格转移问题。通过自动化和简化与整合来自异构数据源的技术流程,大型语言模型和生成式人工智能模型将促进协作数据网络的增长,使得人工智能模型能够利用前所未有的大规模数据集。此外,除了协调,合成数据生成还可以解决在具有差分隐私保证的情况下匿名化敏感数据的问题,从而为在每个参与合作的伙伴内保护数据隐私的同时,提供了一种有前景的技术解决方案来推动协作数据网络的发展。
其次,深度生成模型不仅可以生成文本和图像,还可以生成具有所需结构或功能的新型小分子、核酸序列和蛋白质。在药物发现领域,这些模型被越来越多地用于快速探索候选治疗药物的广泛空间,并在计算机模拟中对其进行优化,以适应特定的靶点或功能。例如,Shanehsazzadeh等人使用深度生成模型生成曲妥珠单抗(trastuzumab)的变体,曲妥珠单抗是一种针对人表皮生长因子受体2(HER2)的单克隆抗体,用于治疗乳腺癌和胃癌,并通过实验证实了三种由人工智能生成的变体与曲妥珠单抗具有较低的序列相似性,但与HER2的结合更好。除了设计治疗药物,基于人工智能的生物数据生成模型还被用于其他用途,例如准确的长DNA读取测序,以降低DNA测序的成本并提高准确性;或者在单细胞基因组学模态之间进行转换,以允许对组织内组学多模态多样性的探索。
第三,LLMs和生成型AI模型可以增强现有的AI模型,并为异构数据和概念的无缝集成提供令人兴奋的框架。事实上,大多数基于深度学习的生成模型,包括LLMs,具有一个显著的特点,即它们以统一的方式表示任何类型的数据,即一列数字,常常被称为数据的特征向量。例如,为了回答一个问题,ChatGPT首先将其从文本转换为向量,然后根据该向量生成答案。
现代生成型AI系统(如用于文本数据的transformer或用于小分子的图神经网络)学习到的表示具有非凡的能力,能够捕捉生成有意义的文本或相关分子所需的信息,但它们也可以用于其他目的。特别是通过将复杂数据表示为向量的能力,LLMs和生成型AI模型可以作为关于数据的强大先验知识的来源,可以用于改进其他机器学习系统的性能。在神经符号表示学习领域,这已经在发生着,通过深度表示学习从编码有关生物学的大量数据的知识图中学习基因或疾病的表示,然后使用这些学习到的表示来预测基因的特性或推断基因-疾病关联。作者预计将会出现更多应用这些想法来改进从患者数据中进行诊断、预后或治疗反应预测的AI模型的情况。大多数患者数据具有非常高的维度(想象一下用于表示医学影像、分子特征或电子健康记录的数百万个描述符),从这些数据中训练准确的AI模型必然涉及对模型空间进行先验知识约束。LLMs通过捕捉生物学概念的复杂和上下文相关的表示,为训练AI模型提供了指导,使其更准确和稳健。如何准确实施这个想法以及它的有效性在很大程度上仍然是开放的研究问题,但将LLM学习到的基因或疾病表示转移给基于组学的机器学习模型等简单方法是一个有希望的方向。
第四,令人心动的是,LLMs的潜力远远超出了上述复杂的技术任务。它们能够很快就可以成为科学家强大的助手,甚至成为真正的科学家吗?凭借其能够存储从大量数据中提取的知识,包括科学文献和内部研究文件,LLMs可能能够像科学家一样进行推理和生成科学假设和发现。一旦LLMs变得更加复杂,有希望能够向它们提出相关的研究问题,例如:“对于这个具有医学需求尚未满足的患者群体,有哪些好的新药物可用?”然而,现有的LLMs还远远不够成熟来完成这样的任务。尽管在许多基准测试上取得了有希望的结果,但科学领域的LLM——Galactica,在线上仅存活了三天。虽然ChatGPT在网络上迅速成为一种流行工具,但像所有LLMs一样,它以“产生幻觉”的倾向而声名狼藉——即,创造出不基于数据或逻辑推理的事实。这是科学研究中的一个重大问题,关于未来是否能够解决这个问题,AI界存在激烈的争论。为了解决这个问题,许多工作正在进行,开发所谓的增强型语言模型(ALMs),将LLMs的灵活性和规模与其他机制结合起来以提高它们的推理和可靠性。在科学领域中,特别感兴趣的一种机制是赋予LLM实时查询和检索相关信息的能力,从数据库中获取实时信息,这有助于它生成基于数据库中真实信息的文本。
ChatGPT代表了人工智能在颠覆人类并希望产生积极影响方面的里程碑时刻。尽管技术专家、伦理学家和监管机构正在忙于讨论类似LLM的技术的持久影响,但越来越明显的是,药物的发现和开发将发生变革。通过自动化耗时任务、生成新的分子和假设、提升现有预测模型的性能并充当强化的研究助手,现有的生成式人工智能模型已经证明了它们的变革潜力。在未来,更先进的LLM很可能会进一步改变我们在药物发现和医学研究中使用人工智能的方式。然而,与其他领域一样,LLM也引发了许多伦理、法律和安全问题。除了上述提到的误导风险,如果模型产生幻觉,部署这些解决方案在制药和医疗领域需要我们对其他风险保持谨慎,比如与私人信息泄露相关的信息风险,以及如果LLM强化了数据中存在的偏见,可能会导致歧视问题。虽然目前没有简单的解决方案来减轻这些风险,但我们至少应该对模型的构建和验证过程进行全面透明,并使用模型卡片等模板进行系统性的报告,以确保科学研究基于坚实的基础,并使医学进步造福于所有人。
参考资料
Vert, JP. How will generative AI disrupt data science in drug discovery?. Nat Biotechnol (2023).
https://doi.org/10.1038/s41587-023-01789-6