鉴于人工智能和数字驱动技术的快速发展,施维雅制药集团在2018年初做出决定:建立一个专门的高通量计算平台,在研发部门内实施新的数据流程和计算方法。该平台被命名为”Patrimony"。经过4年的实施,Patrimony平台已经非常显著地改变了施维雅的药物发现和开发方法。
2022年7月10日,来自施维雅的Mickaël Guedj等人在Expert Opinion on Drug Discovery杂志发表文章,回顾了Patrimony平台的成就、对研发产生的变革性影响,以及施维雅在实施数据访问和治理流程、建立硬件和用户界面、培养科学家使用预测模型方面的经验、教训和挑战。
1. Patrimony计算平台如何运作
1.1. 总体框架
Patrimony计算平台包括一组硬件基础设施、软件和用户界面组件,允许存储数据和运行算法,以实现特定应用领域内的一组明确定义的任务。建立该药物发现计算平台的方法总结在图1中。
图1. Patrimony总体框架
Patrimony将一系列的计算方法结合到工作流程中,以整合、分析和解释数据。
第一步是确定所有相关的现有生物医学数据库和知识来源,包括结构化和非结构化的,公共或内部的。第二步是策划和整合数据源,形成知识图谱 (或网络)。最后,开发算法,为特定的应用 (与特定的疾病或治疗领域有关) 挖掘该图谱,以产生和评估有关新靶点或药物再利用的假设。
分析如此大量和多样的数据被证明是具有挑战性的,因此需要一个合适的计算框架来确保良好的整合、适当的使用和可追溯性。这种方法被具体化为一个高通量的可扩展过程,包含从数据采集、假设生成、结果的优先排序和实验验证的所有步骤。
1.2. 建立一个专有的、可适应的知识图谱
知识图谱是类似于网络的数字结构,代表了一组概念及其关系的知识。它们很适合用来模拟生物医学系统的相互关联性。
从上述数据源中,施维雅研究团队建立了一个知识图谱,将所有已知的分子相互作用与药理和临床领域的无偏见的映射联系起来 (图2a)。所形成的图由5万多个节点和20多万个关系组成,结合了可以收集或生成的所有信息。对于每个应用,特定的相关数据源被用来补充核心知识图谱的额外节点、相互作用和性质。
多组学分析产生的汇总统计数据 (如折叠变化、P值等) 作为基因或蛋白质节点的性质被映射到知识图谱中。从病人层面的数据推断出的相互作用,如基因-基因共同表达值,被用来衡量或体现它们之间的已知相互作用。
图2. Patrimony知识图谱
Patrimony的核心是生物分子、药理学和临床空间之间的关系,以确定与某种疾病或一组疾病的病理生理学表现最相关的治疗靶点 (图2a)。
为了挖掘这个知识图谱并提取最相关的信息,施维雅开发了一些特定的方法学专业知识 (图2b)。识别与其他节点有更频繁互动的节点 (即枢纽),或与其他节点有频繁互动的节点 (即集群)被认为是特别有意义的,因为它们往往对应于预测在生物或病理过程中发挥关键作用的分子。
此外,图结构被证明非常适用于促进基于图的深度学习方法的直接应用,如图卷积网络 (GCNs),该网络聚集了不同类型的节点及其关系的特征,可以预测药物、靶点和疾病之间的新关联。
Patrimony计算平台知识图谱的一个优势是允许从基因、疾病或药物中的任何切入点开始调查,这取决于平台内已经整合的数据源。
Patrimony计算平台现在已经在施维雅内部被确立为一个多功能工具,在针对感兴趣的疾病开发药物时创造和保持竞争优势。
1.3. 靶点假说评估和优先排序
Patrimony的一个核心应用,是通过对感兴趣的疾病进行建模来确定新的候选治疗靶点。为了利用其知识图谱中包含的大量信息,已经建立了一些衡量标准,以便合理评估和确定可操作的治疗靶点的优先次序。
受Open Targets (一个靶点识别和验证平台) 中发现的原则的启发,Patrimony最终选择了五个不同维度的总体战略标准来评估靶点 (图3a)。
图3. 靶点评估和优先排序
第一个也是最重要的标准是生物相关性 (Biological Relevance)。它总结了所有有助于从多组学数据中了解疾病的病理生理学的活动。具有高度生物相关性的基因被称为疾病相关基因,因为它们很可能作为病因或结果对病理生理学作出贡献。此外,它们往往在知识图谱中聚集并形成可识别的疾病模块。
第二个标准是因果关系 (Causality),它与生物相关性有关,但也是独立评估的,是一个非常关键的维度。根据可用的信息,它可以从以下方面得出:(i) 围绕靶点的遗传关联,(ii) 靶点在与感兴趣的疾病相关的细胞或组织中的表达,(iii) 用AI/ML预测什么可能是一个真正的靶点,基于图的特征和已知批准的靶点的训练。
第三个标准是可操作性 (Tractability),也被称为可药性(Druggability),它代表了用小型合成药物或生物药物来调节靶点功能的可能性。
第四个标准是干扰某一特定靶点时的潜在安全影响 (Safety)。它是通过SIDER等数据库中报告的与已知结合靶点的药物有关的安全事件的数量来评估的。在随后的发展中,我们不仅要考虑不良事件的数量,还要考虑其严重程度。
最后一个标准是考虑与感兴趣的疾病上的应用有关的创新性 (Innovativeness),其记录来自于临床试验,以及专利或使用自然语言处理 (NLP) 的文献挖掘。
鉴于Patrimony计算框架的灵活性,任何其他相关的总结性标准都可以在未来很容易地被纳入。
以上五个标准被单独量化,并在随后的全局评分中进行计算,以确定总体评分最高的靶点的优先次序 (图3b)。对于任何给定的靶点,都会生成单独的”靶点ID cards",以直观和易于解释的方式向终端用户展示总体评估结果 (图3c)。
1.4. 从靶点到药物
在用Patrimony评分系统对候选靶点的假设进行优先排序后,随后通过生物学家和药理学家的深入调查对依据进行整合。这个巩固阶段将进行广泛的文献审查和内部转化数据分析,以确认所确定的候选靶点参与特定的疾病途径,并且可以用特定的化合物模式进行药物治疗。
然后,研究人员可以通过实验确认,在用药物或工具化合物扰动感兴趣的靶点后,疾病活动受到影响,从而验证靶点假说。进行湿式实验室基因抑制 (如通过CRISPR-Cas9删除或RNA沉默) 或通过使用细胞检测或动物模型进行临床前实验,通常是为了证实与靶点相互作用的药物表现出预期药理活性的假设。
Patrimony中使用的知识图谱也被应用于药物再利用,通过使用药物靶点和疾病相关蛋白之间的距离、连接图和深度学习方法来识别已知药物的新靶点。
1.5. 实施
施维雅定义了实施Patrimony计算平台的三个迭代过程:概念验证、结构化和工业化。
概念验证是指在3个月内进行试点工作,目的是快速获得结果。基于一组最小的数据集和算法,将一组感兴趣的靶点定位到一种疾病。结构化步骤旨在列出、检索和实施所有必要的数据集和算法,同时构思第一个专门的和适应的计算基础设施。最后,工业化步骤旨在将现有的Patrimony平台转移到一个更可扩展的架构中,以便为随后应用于公司感兴趣的所有治疗领域奠定基础。
在每个迭代过程中,研究团队采用了软件开发的敏捷操作模式,交替进行头脑风暴、实施、结果产生、巩固和反馈等环节。
在建立新的数据管理时,研究团队遵循FAIR的指导原则,以实现数据的可查找性、可访问性、互操作性和可重复使用性。在整个数据生命周期管理中,整合从多种技术中产生的大规模和多维数据,并在一致性和可靠性方面具有适当的质量性质,仍然是一个重大困难。评估来自公共来源的数据的使用权也被证明是复杂的。
2. 应用
Patrimony的两个迭代过程 (概念验证和结构化) 是在将免疫炎症疾病作为选定的适应症时建立的。它们被专门设计用来评估Patrimony平台支持两种直接应用的能力,即确定治疗靶点和产生药物再利用的假说。
施维雅研究团队将来自各种自身免疫性疾病患者的PRECISESADS队列的多组学分析数据映射到知识图谱中,以支持针对原发性斯约克伦综合症的药物开发。该适应症的一个特殊挑战是合理设计作用于全身水平和/或目标器官 (即唾液腺和泪腺) 的免疫治疗方法。Patrimony帮助确定了几个创新的治疗靶点,并对其进行了优先排序,并有一套强有力的、多维度的证据支持。
此外,Patrimony不仅对确定新的治疗靶点非常有用,而且还用于对施维雅已经开始开发候选药物的其他靶点进行验证。具体来说,两个处于早期临床开发阶段的自身免疫性疾病的单克隆抗体,包括抗1型干扰素和抗IL7R抗体 (ClinicalTrial.gov NCT04605978) 被确认为对斯约格伦综合症和系统性红斑狼疮的有效治疗方案。
提供特定治疗靶点与各种自身免疫性疾病相关的疾病模型,已成为支持施维雅评估候选药物外部许可机会的有力工具。
Patrimony平台的第二项应用,是确定可以重新利用的现有药物,以治疗那些被SARS-CoV-2病毒感染并出现需要住院的严重疾病形式的患者。Patrimony根据科学文献中的数据,确定了一些药物,与重新用于重症COVID-19相关。
基于Patrimony在这些免疫炎症方面的有希望的试点应用,施维雅现在已经启动了工业化阶段,将其应用扩展到肿瘤学和神经学。
目前由Patrimony产生的治疗靶点识别的模型可以通过机器学习方法进行很好的扩展,对候选药物特征进行多任务并行预测。后者包括训练人工神经网络以选择合适的治疗方式来接触给定的靶点,预测虚拟化合物的结合特性以及药理和ADMET特性,甚至通过使用生成对抗网络来创造新分子。
3. 挑战
在制药环境中,Patrimony面临的一个主要的挑战是,它需要多学科团队之间的高度横向性,这些团队集合了众多的专业知识,包括计算硬件、云计算、网络计算、机器学习和人工智能、统计学、生物信息学、大规模生物学、药理学、临床知识,以及评估数据可及性和使用的法律技能。要将这些非常多样化的人类专业技能结合起来,就必须进行持续的培训和内部沟通,以促进计算模型的适应性。
另一个重要的挑战是验证预测靶点的科学合理性所需的巩固步骤。算法可以在很短的时间内产生许多假说。为了证实或反驳所产生的假设,人类专家进行的大量文献搜索仍然很耗时。在这项工作中,我们发现对于每一个给定的应用于感兴趣的疾病,用已知的靶点和改变疾病的药物来评估产出是至关重要的。为此,团队在该平台上评估了临床批准的药物及其各自的靶点,并验证了它们的相关性。
实施疾病建模以支持药物发现的另一个重要障碍是难以区分病理生理学中的因果关系和偶然的基因或蛋白质。在未来的分析中,基于贝叶斯网络等的因果关系计算推断是一个有趣的选择,可以揭示与疾病相关的主调控因子或驱动突变。高通量技术的发展,如单细胞RNA测序或深度免疫分型,以及用AlphaFold算法进行蛋白质结构预测,将有助于不断扩大知识空间。整合这些新的数据流意味着要定期更新知识图谱,从而引起人们对数据源的可信度和质量控制的关注。对疾病相关过程的分析需要在大范围内补充具有动态特性的拓扑结构,这仍然是一个重大挑战。
4. 结论
Patrimony所代表的知识图谱是在计算机系统中表示疾病的复杂性且不断发展的方法。在旨在提供更适合患者特异性的治疗的精准医学方法的背景下,疾病建模最近已成为候选药物设计和开发的有力手段。
施维雅内部通过结合创新的概念、方法和支持性的基础设施来设计Patrimony平台,来显著提高整合大规模生物医学数据的能力。基于在探索免疫炎症性疾病试点应用方面的积极经验,这一计算平台的使用现在正被部署到公司感兴趣的所有治疗领域。
参考资料
Guedj M, Swindle J, Hamon A, Hubert S, Desvaux E, Laplume J, Xuereb L, Lefebvre C, Haudry Y, Gabarroca C, Aussy A, Laigle L, Dupin-Roger I, Moingeon P. Industrializing AI-powered drug discovery: lessons learned from the Patrimony computing platform. Expert Opin Drug Discov. 2022 Jul 10:1-10. doi: 10.1080/17460441.2022.2095368.
--------- End ---------