编译 | 曾全晨 审稿 | 王建民
今天为大家介绍的是来自Alan Russell团队的一篇论文。人工智能工具可以让公司在保护敏感信息的同时共享有关药物候选物的数据,从而释放出机器学习和尖端实验室技术的潜力,造福社会大众。
蛋白质制药领域存在一个令人担忧的关键问题,只有不到10%的这类药物候选物成功通过临床试验。在开发的晚期阶段失败,每次临床试验的成本在3000万至3.1亿美元之间,可能导致每种药物成本为数十亿美元,并浪费了数年的研究时间,同时病患也要苦苦等待治疗。
我们需要更多的蛋白质药物。与基于较小分子的药物相比,蛋白质的大尺寸和大表面积意味着由它们制成的药物与靶分子(包括与疾病相关的体内蛋白质)发生相互作用的方式更多。因此,基于蛋白质的药物在治疗方面具有广泛的潜力。例如,像nivolumab和pembrolizumab这样的蛋白质药物可以防止肿瘤蛋白质与免疫细胞上的受体蛋白质之间的有害相互作用。相比之下,小分子药物不足以夹在这两种蛋白质之间并阻止它们相互作用。接受传统治疗的转移性非小细胞肺癌患者仅有16%的机会在五年或更长时间内存活。但接受pembrolizumab治疗的患者,有32%的人能够活得那么久。
因为蛋白质可能具有多个结合位点,因此可以设计药物将其附着到多个靶点上,例如既可以附着到癌细胞,也可以附着到免疫细胞。将这两者结合在一起可以确保癌细胞被摧毁。为了解决药物开发的瓶颈问题,必须改进关于蛋白质药物在体内可能如何发挥作用的计算模型。研究人员需要能够判断药物有效剂量,它们将如何与体内的蛋白质相互作用,是否可能引发不希望的免疫反应等等问题。
要更好地预测未来的药物候选物,需要收集大量关于为什么先前的药物在临床试验中成功或失败的数据。为了训练有效的机器学习模型,需要大量的蛋白质数据,可能涉及数百个甚至数千个蛋白质。然而,即使是最高产的生物制药公司在2011年到2021年间,平均每年也仅开始了3到12个蛋白质药物的临床试验(详见go.nature.com/3rclacp)。单个制药公司无法单独积累足够的数据。
将人工智能(AI)纳入药物开发流程可以帮助解决这个问题。它为竞争公司提供了一个机会,可以在保护商业利益的同时合并数据。这样做可以提高开发者的预测能力,使公司和患者都受益。
生物技术遇见大科技
图 1
药物开发是劳动密集且耗时的过程。直到大约五年前,开发一个药物候选物需要经历多个蛋白质工程周期,才能将自然蛋白质转化为有效药物。蛋白质会根据所需的性质进行选择,例如能够与特定目标分子结合的能力。研究人员制造了数千种蛋白质,并在体外进行严格测试,然后选择一种主要的候选物进入临床试验。任何阶段的失败都意味着要从头开始重新进行这个过程(见“改变药物发现流程”,图1)。生物制药公司现在正在使用人工智能来加速药物开发。机器学习模型通过使用关于先前药物候选物的氨基酸序列或三维结构以及感兴趣的性质的信息进行训练。这些特性可以与药效(例如蛋白质与哪些分子结合)相关,安全性(它是否与不需要的分子结合或引发免疫反应?)或制造便捷性(在工作浓度下药物的黏度有多高?)相关。一旦训练完成,AI模型会识别数据中的模式。当给定一个蛋白质的氨基酸序列时,模型可以预测蛋白质将具有的性质,或者设计一个估计会赋予所需性质的“改进”序列。这可以节省时间和金钱,因为不需要试图使自然蛋白质具有对药物至关重要的性质。随着预测的改进,有一天也许会有可能让这些模型从头开始设计有效的药物。
技术进步还有助于实验室实验与AI引导的药物设计同步发展。完全自动化的工作站可以独立移动液体,培养细胞并加载分析仪器。微型化技术可以使用极少量的材料进行检测。这些改进共同使得可以同时测试更多的蛋白质,因此开发者可以生成额外的数据,用于训练机器学习算法并有效地筛选模型生成的候选物。
简而言之,这种将尖端生命科学、高通量自动化和人工智能融合在一起的方法,被称为生成生物学,已经极大地提高了药物开发者对蛋白质在溶液中稳定性和性质的预测能力。与五年前相比,作者所在公司现在在开发候选药物直到临床试验阶段的时间减少了60%。但是,与药物在体内行为相关的性质仍然难以预测,尤其是对于具有多个靶点的复杂药物。公司缺乏足够的数据来准确建模这些行为,因为与大多数体外测试不同,临床试验提供的信息有限。需要关于数百个或数千个蛋白质的数据来训练有效的机器学习模型。
为了积累足够的数据,生物制药公司需要共享有关特定氨基酸序列的物理性质、蛋白质靶向的分子以及药物在体内的作用方式的信息。然而,这些数据也是商业资产,使开发者能够以竞争速度将治疗药物推向市场。机器学习的两种专门方法可以提供前进的途径,使公司能够共享资源,而不必透露竞争性数据。
联邦学习
一旦训练完成,机器学习模型可以随时根据可用的更多数据进行更新。通过“联邦学习”,各方可以使用数据集更新共享模型,而无需共享底层数据。
以下是联邦学习在生物制药公司中的应用方式。一个可信的第三方,可能是一家技术公司或专业咨询公司,将维护一个“全球”模型,最初可以使用公开可用的数据进行训练。该第三方将全球模型发送给每个参与的生物制药公司,公司将使用自己的数据更新模型,创建一个新的“本地”模型。然后,由可信的第三方聚合本地模型,生成更新后的全球模型。这个过程可以重复进行,直到全球模型基本上停止学习新的模式。
作者所参与的小分子药物联邦学习项目MELLODDY展示了这种方法的可行性(www.melloddy.eu)。对于这个项目,Amgen和其他九家制药公司在三年内使用超过2100万种小分子药物候选物的药理学和毒理学数据训练了共享的联邦学习模型。所有十家合作伙伴使用共享模型都能更好地预测小分子的性质,而不是使用自己现有的模型。根据所预测的性质不同,改进的程度有所不同,但范围从不到1%到20%,不同公司在每个性质上看到了不同水平的改进。大多数公司在预测小分子在人体中的吸收、分布、代谢和排泄方面的能力提高了10%以上,这正是蛋白质药物最需要的信息类型。
小分子药物的分子复杂性较低,因此使用这些药物进行联邦学习的做法是合理的。作者预计这种方法对蛋白质药物将会带来更大的改进。对于MELLODDY项目,每家公司现有的机器学习模型已经在丰富的数据集上进行了训练,包括数百万种小分子,因此通过共享模型添加更多数据可能带来的改进有限。生物制药公司对蛋白质药物的起始信息要少得多,因此有更多的改进空间。
主动学习
开发者可以通过精细调整他们必须生成的数据来提高他们的模型性能,获得更多的回报。这种“主动学习”方法利用了机器学习模型可以检测到异常输入的事实,例如与其训练数据中的那些非常不同的氨基酸序列,并且可以提醒用户该输入的预测是不可靠的。在主动学习中,算法确定了需要用于对这种类型异常氨基酸序列进行更可靠预测所需的训练数据。开发者不再需要猜测需要生成哪些额外数据来改善他们的模型,而可以构建和分析仅包含所需氨基酸序列的蛋白质。
生物制药公司已经在使用主动学习。现在,它应该与联邦学习结合起来以提高预测性能,特别是对于更复杂的性质,例如蛋白质的序列或结构如何决定其与免疫系统的相互作用。抗体数据为这项努力提供了一个良好的起点,因为它们是最常见的一类蛋白质药物,因此有最多的数据可用。联邦学习可以用于汇总每家公司在开发或临床试验中测试过的抗体的信息。然后,主动学习将揭示一组可行的抗体序列,值得进行特征化以改善模型的预测能力。这些序列可以从Observed Antibody Space数据库中选择,该数据库是一个公共存储库,其中列出了超过十亿个自然产生的抗体的氨基酸序列。使用公开可用的序列可以消除透露专有药物靶点的风险。
拥抱合作式的竞争
蛋白质药物开发者尚未采取必要的步骤来使联邦学习和主动学习生效。作者鼓励生物制药公司组成一个共享联邦学习和主动学习平台的联盟。根据在MELLODDY项目中的经验,作者认为以下考虑因素将是促使协作竞争成功的关键因素。
首先,参与者必须共同选择用于他们模型的平台。技术公司已经构建了行业无关的基础设施,以实现联邦学习(例如NVIDIA FLARE;go.nature.com/3pa8qwr)。一个技术公司或咨询公司应该由所有参与者共同批准,成为共享全球模型的可信第三方。
其次,合作成本应该较低。需要投资将历史数据集格式化以供机器学习模型使用,获取主动学习算法请求的新数据,安装和运行软件以及法律建议。但这种投资相对于使用传统方法开发药物的成本来说只占一小部分,特别是考虑到由合作产生的模型应该降低未来的药物开发成本。
最大的挑战将在于确定联盟应该共享哪些测量和指标。作者建议将体外测试的药理学和稳定性数据以及临床试验数据纳入分享范围,重点是预测对人们最有益的性质。公司应承诺扩展他们的临床测量,包括已知影响个体是否对药物产生免疫反应的因素。这些数据非常敏感,因此对于贡献者来说能够保护其竞争利益至关重要。作者建议联盟的每个创始成员都应共享一定数量的数据,作为访问平台的条件之一,一旦训练出初步模型,主动学习将提供一种计算模型当前价值的机制,新参与者将通过提供增加一定价值的数据集加入联盟。
根据作者在MELLODDY项目中的经验,预计每个参与者看到的改进会有所不同。一些公司可能会在预测药物黏性方面取得最大的进展,而其他公司可能在预测药物代谢方面取得最大的进展。但最终,所有参与者都应该发现他们可以更快地以更低的成本开发药物 – 作者期望这足以吸引公司加入。
参考资料
Marissa Mock, Suzanne Edavettal, Christopher Langmead & Alan Russell. AI can help to speed up drug discovery —but only if we give it the right data. Nature 621, 467-470 (2023)
https://doi.org/10.1038/d41586-023-02896-9