Drug hunters are moving into the clinic with human-first ‘no-hypothesis’ target discovery, applying the full force of machine learning to massive collections of human omics data.
越来越多的公司认为,基于人工智能 (AI) 的算法策略可以补充假设驱动的药物靶标发现。今年 4 月,BioAge Labs 宣布,他们已经给他们的第一个试验参与者服用了一种旨在治疗肌肉萎缩的药物,该药物是通过对人类衰老研究中一组患者收集的临床和组学数据进行人工智能分析而确定的。
传统的药物开发中,公司通常从临床前研究中确定和验证的靶标和机制开始。这迫使他们对这些相同的基因或蛋白质是否真的与患者的病症有牵连下重注。但是,正在崛起的一代初创公司正在将机器学习(ML)应用于丰富的临床和分子数据集,而不遵循预先设定的假设。
由人工智能驱动的药物研发的投资正在涌入。3 月,凭借新获得的 8300 万美元资金,Celsius 启动了一项针对炎症性肠病 (IBD) 的临床计划,该计划基于来自患者的组织样本。Verge Genomics 使用人工智能发现神经退行性疾病的新靶标,去年12 月从礼来(Eli Lilly)和默克(Merck)等投资者那里筹集了 9800 万美元,旨在启动针对肌萎缩侧索硬化症(ALS)药物的临床试验。今年 1 月,总部位于伦敦的 BenevolentAI 扩大了与阿斯利康(AstraZeneca)为期三年的合作伙伴关系的范围,以应用该生物技术的疾病不可知论平台,该平台已经产生了至少三个新的药物靶标。
早期的玩家也在加强支持。去年 10 月, Immunai 获得了 2.15 亿美元的 C 轮资金,用于通过将 AI 应用于大量患者免疫数据来确定新的药物靶标。总部位于伦敦的 Relation Therapeutics 在 6 月份筹集了 2500 万美元,用于实施一个基于 ML 的平台,该平台将单细胞分析与临床洞察相结合,以发现治疗骨病的新靶标。
所有这些公司的区别在于他们的“以人为本”的方法。最初的重点是在患者衍生数据中识别靶标,而不是在动物模型或高通量筛选和基于细胞的分析中识别它们。过去的 20 年中,人类基因数据激发了许多药物计划,主要来自被称为全基因组关联研究 (GWAS) 的人口规模调查,该调查将患者队列的遗传特征与健康对照组的遗传特征进行比较。更重要的是,庞大的研究生物库和国家公私合作伙伴关系的兴起,如 Genomics England,收集了超过 150,000 个人的表型和基因组数据,为制药公司提供了充足的工作材料。
大型生物制药公司已经接受了这种方法。例如,Amgen 于 2012 年收购了冰岛初创公司 deCODE Genetics,以受益于该公司深厚的基因组专业知识和数据资源,包括来自大约 50 万人的基因组和临床数据。Regeneron 和 AstraZeneca 还通过内部研究、与学术界的合作以及国际生物库计划的结合,各自建立了超过 100 万人的分子和临床数据的强大集合。
这种规模的数据使发现对健康和疾病具有强大影响的稀有基因变体变得更加容易。但随着这些数据集变得越来越大,并包含基因组之外的其他组学层,包括转录组学、蛋白质组学甚至代谢组学数据,它们的分析变得更具挑战性。这就是人工智能可以成为强大资产的地方——尤其是当人们在数据中搜索可能不太明显的信号时。Jeffrey Reid,在某个时候,我们将完成所有唾手可得的成果,也许这就是新方法更具变革性的地方,因为 AI 和 ML 非常擅长在非常微妙的非线性信号中查看广泛的变量。
这些信号可以包括与疾病相关的各种类型的数据。例如,Insitro 开发了一个基于 ML 的平台,该平台可以分析肿瘤组织病理学图像、基因组序列和临床医生报告,以识别与特定病理学相关的独特特征。最近宣布与 Genomics England 建立合作伙伴关系,将其基于 AI 的靶标发现平台应用于他们的数据集,以促进药物靶标发现。4月份的 Genomics England 会议上,Insitro 首席执行官 Daphne Koller 评论说:“人类生物学常常让人们惊讶于没有训练临床医生去寻找的东西。”
另一方面,与UK Biobank等数据集相关的医疗记录:一个来自50万人的医疗和遗传数据的存储库可以为分子数据提供必要的背景。对于英国生物库来说,这意味着非常广泛的范围——成像数据,甚至一些蛋白质组学分析、医疗记录数据等。
人工智能可以在分析的各个阶段实施,本质上是梳理整个生物医学数据的大海捞针,以寻找关键的可操作数据。例如,Reid 说他在 Regeneron 的团队偶尔会执行与假设无关的“全部”分析。可以说,向研究人员展示这种基因型与任何表型之间最重要的关联,然后你就会得到这份清单。” 或者它可以专注于特定的疾病表型和更窄的基因和途径子集,为特定的病理提供分子解释。当 Verge 科学家使用 ML 分析 ALS 患者的脊柱组织并检测到溶酶体功能与疾病病理学之间的联系时,情况就是如此。
为了寻找新的药物靶标,BenevolentAI 和 AstraZeneca 梳理了实验和临床数据存储库,以及科学和医学文献。以这种方式收集的数据然后被组装成“知识图”,捕捉例如基因和通路之间的关系。阿斯利康基因组学研究中心副总裁兼负责人 Slavé Petrovski 开发了一种机器学习工具,该工具利用来自数十个生物数据库的知识以及特定疾病的临床和基因组资源来破译潜在疾病大型人类数据库中的相关基因。“它可以为特定表型的 20,000 个人类基因中的每一个分配疾病相关性的概率。
AI 还可以对单个细胞亚型进行分类和表征。Celsius平台分析来自不同患者群体的单细胞转录组数据,以区分特定细胞类型中的某些基因如何与特定表型相关。Magram,其中一种细胞类型是炎症单核细胞,它是细胞因子产生的关键驱动因素,因此关注这些细胞并询问哪些受体可能驱动那里的生物学。
即使使用最强大的算法,人工智能的输出通常也只是实现靶标识别的一步。华盛顿大学计算机科学家 Su-In Lee 说,他在生物医学研究中使用了 AI 和 ML。使用神经网络来生成这个假设,然后将候选靶标传递给实验者并进行实验,然后可以再次为模型学习提供信息。
即使人工智能仍然只是药物开发人员的工具之一,Osbourn仍然热衷于它以新方式解决老问题的能力。关键是计算机算法中的机器学习与某种深厚的跨学科专业知识相结合。
参考资料
Eisenstein, M. Machine learning powers biobank-driven drug discovery. Nat Biotechnol (2022).
https://doi.org/10.1038/s41587-022-01457-1