Patterns|诺华举办内部挑战赛,用AI预测候选药物的临床试验成功率

2021-12-06 14:39:52 浏览数 (2)

鉴于药物研发的高昂费用,制药公司只能承担数量有限的药物管线。那么更准确地预测药物开发项目的风险,意味着可以更有效地分配资金。

2021年8月13日,Patterns杂志发表文章,介绍了诺华在内部开展的DSAI挑战赛,该挑战赛吸引了诺华全球25个办事处的50多个跨职能团队参加,旨在利用诺华数据科学家、统计学家、投资组合主管和研究人员的领域专长,开发更强大的模型来预测管线候选药物的临床试验成功概率。

在文章的讨论部分,作者认为这次挑战赛代表了第一个使用制药数据的众包合作竞赛。

Patterns杂志是细胞出版社(Cell Press)的开放获取期刊,发表跨越数据科学各个领域的突破性原创研究。

以下是全文主要内容。

摘要

诺华公司举办内部数据科学和人工智能挑战赛,目的是开发预测药物开发结果的机器学习模型。挑战赛结合了麻省理工学院的研究工作,使用了Informa的数据。来自诺华全球25个办事处的50多个跨职能团队参加了挑战赛。

最终,两个获胜团队通过最先进的机器学习算法和使用新数据,开发出的模型超过了麻省理工学院的基础模型(曲线下面积分别为0.88/0.84对0.78)。除了验证MIT研究中确定的与药物批准相关的变量外,该挑战赛还为药物开发成功和失败的驱动因素提供了新的见解。

前言

在过去的十年中,临床试验成本不断上升,并且向具有更大治疗潜力的更复杂的生物途径(但也有更大的失败机会)转变,这导致药物开发变得越来越漫长、昂贵和冒险。

由于药物开发过程的资金密集型性质,生物技术公司和制药公司只能负担得起有限数量项目的投资。在管理他们的药物组合时,这些开发商通常使用基于药物治疗类别和开发阶段的监管批准率的历史估计,结合对项目特定风险因素的非结构化讨论和主观调整,来做出投资决策。然而,最近,人们对将机器学习预测与人类的判断以更有条理的方式结合起来的兴趣越来越大。

在最近的一项大规模研究中,Lo等人将机器学习技术应用于预测监管部门的批准。该研究涉及一系列药物和临床试验的特征,这些特征来自6000多种独特的药物和近20000项临床试验。利用Informa提供的两个专有的制药管线数据库(截至2015年第四季度),Lo等人开发的模型取得了可喜的预测准确性。这些模型还确定了预测药物开发结果的最有用的特征:试验结果、试验状态、试验获利、试验持续时间、另一适应症是否事先批准和申办方的记录。

有了对影响药物审批的因素的更好理解,以及对临床试验成功可能性的更准确预测,生物制药公司和投资者就能够更好地评估不同药物开发项目的风险,从而更有效地分配他们的资金。

数据供应商Informa的两个制药管线数据库Pharmaprojects和Trialtrove

作为前一项研究的延伸,麻省理工学院与诺华合作,基于相同的Informa数据库(到2019年第一季度),举办内部数据科学和人工智能(data science and artificial intelligence,DSAI)挑战赛。这项挑战赛旨在利用诺华数据科学家、统计学家、投资组合主管和研究人员的领域专长,开发更强大的模型来预测管线候选药物的成功概率,并且增强对影响药物批准的因素的理解。

来自诺华全球25个办事处、由300多人组成的50多个团队参加了这项挑战,提交了约3000个模型,进行正面竞争。除了预测以外,这些团队还被要求评估其模型的创新性和稳健性,以及其发现的潜在商业价值。

在本文中,我们总结了表现最好的团队的发现。通过研究他们的模型,我们验证了以前发现的与药物批准相关的变量,并确定了影响药物开发结果的新特征。

方法

数据

在DSAI挑战赛中,我们使用商业数据供应商Informa的两个制药管线数据库作为核心数据集。Pharmaprojects专门研究药物信息,Trialtrove专门研究临床试验情报。这两个数据库汇总了公共领域的4万多个数据源的药物和试验信息,包括公司新闻稿、政府的药物和试验数据库(如Drugs@FDA和ClinicalTrials.gov),以及科学会议和出版物。本文使用的数据库是Lo等人使用的数据库的更新版本(2019Q1 vs 2015Q4)。

与Lo等人的研究一样,我们构建了一个药物-适应症对的数据集重点是有已知结果("P2APP")的II期试验数据。我们提取了一系列药物的化合物属性和临床试验特征作为预测的潜在特征,包括3个二进制特征、1个日期特征、7个数字特征、2个多类(multi-class)特征、16个多标签特征和5个非结构化的自由文本。这些都在表1中。在我们的分析中,我们将暂停、终止和未开发的开发状态定义为"失败",而将在至少一个国家注册和上市定义为 "成功"或批准。

表1 从Pharmaprojects和Trialtrove提取的特征

注:提取的特征包括生物靶点、国家、作用机制、药物活性成分来源、给药途径、参加试验的患者人数、试验持续时间、入组患者的性别、疾病的治疗领域……等等

由此产生的数据集包括6901个药物-适应症对和12680个独特的II期临床试验,结束日期跨越1999年至2019年初,包含了大约20年的数据(表2)。在我们的数据集中,796对药物-适应症对(11.5%)是成功的,6105对药物-适应症对(88.5%)以失败告终。

这些数据涵盖了15个适应症组:消化系统、抗癌、抗感染、抗寄生虫、血液和凝血、心血管、皮肤病、泌尿生殖系统、荷尔蒙、免疫、肌肉骨骼、神经系统、罕见疾病、呼吸系统和感觉器官的药物。癌症、罕见疾病和神经系统疾病的药物是最大的子组。正如预期的那样,数据集中的大多数试验是由企业申办的,而不是由研究者发起的学术试验。

表2 P2APP数据集的样本量,以及用于挑战赛的训练和测试数据

挑战设置

DSAI挑战赛由Aridhia DRE主持,这是一个基于云的平台,旨在对医疗数据进行协作式数据分析。每个团队都得到了一个访问数据的远程工作空间,开发模型的计算资源,以及一个由AIcrowd托管的用于管理源代码的Git仓库。AIcrowd还主持一个排行榜和讨论区,供各小组互动和回答问题。设置见图1。

图1 DSAI 挑战赛设置

该挑战赛由Aridhia DRE和AIcrowd主办。它包括一个开放的测试回合,供各团队完善和校准他们的模型,以及一个最终的评估回合。

比赛内容

参赛团队需要基于II期临床试验数据和药物化合物特征(见表1),预测监管部门批准的概率(即药物适应症的开发状态)。这相当于一个现实世界的决策场景,即制药公司必须根据II期临床试验的结果来决定是否投资于III期临床试验。

比赛所用数据划分

我们将P2APP数据集按时间划分,2016年以前失败或成功的药物-适应症对作为训练数据,而2016年或以后失败或成功的药物-适应症对则作为测试数据,拿出来评估排行榜的排名。表2显示了训练和测试数据的样本量。

我们鼓励参赛队在核心数据集上创造新的特征,除了提供的那些特征外,还可以通过连接新的数据集(如化合物数据)和特征工程。

比赛方式

挑战赛跨越了5个月(从2019年10月到2020年3月)。1个月用于团队注册和入职,2个月用于模型开发和提交,2个月用于最终评估。

在模型开发阶段,团队使用训练数据建立他们的模型。他们能够收到关于他们的模型在测试数据子集(50%)上的表现的实时反馈,以及与其他团队的比较("公开测试回合")。这是通过一个公共排行榜进行的,该排行榜随每次提交的数据而更新。这让参与者有机会完善和校准他们的算法。此外,在最后一轮评估中,每个团队提交的数据都在完整的测试集(100%)上进行评估。

评估方法和指标

我们使用二元交叉熵对数损失函数(binary cross entropy log loss function)作为评估预测概率的主要评分标准。

我们还使用提供给参赛者的相同训练数据,根据Lo等人描述的算法训练了一个基线模型。为了获得每个模型性能的置信区间,我们对测试集进行了1000次自举(bootstrapped),并在相同的自举数据集上评估了这些模型。

作为最终评估过程的一部分,参赛团队被要求上传用于训练其模型的代码以及描述其方法和结果的文章。一个由技术和领域专家组成的评估委员会做如下工作:(1)验证团队的排行榜表现,(2)评估模型产生的商业洞察力的深度。

在技术层面上,每个团队的源代码库会被检查,以确保报告的结果是稳健和可重复的。还会审查表现最好的团队的提交历史,以防止游戏化,确保他们不会因为频繁提交而获得不公平的优势。技术评估还包括了解顶尖解决方案的创新方面。

然后,领域专家从一般的、科学的方案和科学试验的洞察力方面,评估从这种模型考察和可视化中获得的见解和学习。由于研究结果的目标为投资组合和风险管理决策提供信息,所以模型的可解释性就非常重要,即是否容易洞察到风险因素和影响批准的关键因素。事实证明,两个获胜团队的解决方案,在领域专业知识的深入程度和特征洞察力方面明显区别于其他团队。

在这次评估之后,两个表现最好的团队被选中向一个最终委员会展示他们的发现,该委员会由诺华公司投资组合战略和生物统计部门及其数字办公室的领导人以及麻省理工学院研究人员A.W.L.和K.W.S.组成。

结果

在排行榜挑战赛的公开测试阶段,我们收到了大约3000个模型提交。这些团队探索了各种各样的机器学习模型,从传统的逻辑回归、支持向量机、决策树和神经网络到随机森林、梯度提升机、XGBoost等组合方法以及多种类型模型的组合。

考虑到重复使用测试集数据所带来的过度拟合的危险,我们创建了一个公共和私人排行榜分数的散点图,以评估适应性过度拟合的程度(图2)。公共分数是在公开测试回合中提供给参与者的测试集的子集上评估的,而私人分数是在最终评估回合中对完整的测试集进行评估。在理想的情况下,由于模型的公共和私人性能几乎相同,这些点将接近对角线。相反,偏离对角线表明可能存在过度拟合。我们观察到,在图2中,我们的分数接近于理想情况,表明几乎没有证据表明DSAI挑战赛的竞争者对公共排行榜的分数过度拟合。

图2 公共和私有排行榜分数的散点图

在图3中,我们将排名前十的团队的表现与Lo等人描述的基线模型进行比较,使用私人排行榜的对数损失和AUC作为我们的衡量标准。虽然基线模型与表现最好的前十名团队相比,对数损失更差,但其AUC(0.78,95%置信区间[CI][0.75,0.82])只比挑战赛中的前两名团队低。这可能部分是由于参加比赛的团队试图优化对数损失。

图3 排名前十的团队和基线模型的私有排行榜日志损失和AUC

误差条对应的是95%的置信区间。排名前两位的团队在排行榜挑战中的表现优于其他所有提交的模型,也优于基线模型。

我们重点关注在所有指标上都优于基线模型的两个团队的方法。这些团队有不同的策略和专业背景,但他们在利用人类洞察力进行模型预测的方式上是一致的。

第一的模型的团队主要由生物统计学家组成,他们在临床试验数据分析方面具有重要的领域专长。他们将对药物开发时间表和哪些数据条目应该被放弃的洞察力纳入其中。

亚军团队主要由具有生物信息学和化学信息学领域专业知识的数据科学家组成。他们依靠广泛的数据探索和特征工程,特别是开发一种新的方法来理解这些特征的相互作用,但也用临床试验的知识来增强它们。

第一名团队的方法

表现最好的模型是由来自诺华美国和瑞士办事处的合作团队(Insight_Out团队)开发的,其成员具有生物统计学、数据科学和组合管理的背景。他们的模型达到了0.88的AUC(95% CI [0.85, 0.90]),相当于比基线模型提高了约0.10。除了使用数据集中提供的核心特征外,该团队还创建了几个新的特征来预测临床试验的成功率:捕捉孤儿药适应症的信息,提高治疗领域的颗粒度(granularity,即详细和清晰程度);按治疗领域和疾病比较II期临床试验的相对规模和平均水平;将候选药物分类为新型化合物、生命周期管理(LCM)项目或仿制药;并确定该药物是否已注册国际非专利名称(INN)。

他们的最终模型是一个由两个XGBoost模型和一个贝叶斯逻辑回归(BLR)模型组成的组合。不同模型的组合通常可以胜过任何单独的模型。

研究小组发现,相对于疾病的平均水平,II期临床试验的招募率是最有力的预测批准的指标之一。研究小组还发现,以前批准过任何适应症,过去批准过类似适应症的其他药物,以及成熟的作用机制,都会提高批准的几率。另一方面,他们发现,针对难以治疗的疾病(即临床开发成功概率的历史表现远低于同类疾病的治疗领域)的药物,如癌症或阿尔茨海默氏病,更有可能失败。

第二名团队的方法

第二名的模型是由诺华研究基金会基因组学研究所的数据科学家和研究人员组成的团队("E2C "团队)开发的。该模型的AUC达到了0.84(95% CI [0.81, 0.86]),相当于比基线模型提高了约0.06。

该团队进行了广泛的特征工程,创建了已知的具有时间耦合性的特征的等级规范化版本。除了数据集中的核心特征,该团队还创建了新的变量来捕捉开发历史对未来批准的影响。例如,他们按阶段、按结果和按总数计算了每种药物过去参与的试验的数量,而不考虑适应症。此外,他们还对适应症和适应症组进行了类似的计算,对所有药物进行了汇总。

该小组还使用了自然语言处理技术,如TFIDF(术语频率-反向文档频率)算法,将试验的文本数据转换成特征向量。由于所考虑的特征集很大,该团队使用随机森林进行了逐步的特征选择,以确定一套解析性的因素。

从一开始,第二名的团队就专注于XGBoost模型,这种算法在数据科学竞赛中有着良好的记录。他们探索了多种超参数选择的训练-验证策略,最终确定了随机5倍交叉验证的方法。与顶尖团队一样,他们也根据专家知识对XGBoost模型的试验级预测进行了后处理。

在前20个最重要的特征中,有8个是该团队创造的新特征,核心数据集中没有提供。他们还发现,具有强大的开发历史(如过去的试验有积极成果的百分比)的药物,更有可能获得成功。有趣的是,研究小组发现,以较年轻的年龄作为纳入标准的试验往往更加成功。

除了单一特征分析外,第二名的团队还进一步确定了信息丰富的特征对。他们发现试验结果和药物开发历史之间有很强的互动效应。例如,在试验成功并达到主要终点的情况下,与没有任何事先批准的新化合物相比,事先已获得其他适应症批准的药物获得批准的可能性几乎是两倍。研究小组还发现,具有良好记录的药物开发商,在探索很少被开发的适应症方面具有更高的成功概率。

讨论

麻省理工学院和诺华的研究人员在内部DSAI挑战中合作,开发预测临床开发结果的机器学习模型。据我们所知,这次挑战赛代表了第一个使用制药数据的众包合作竞赛。

内部数据科学竞赛既是公司解决业务问题的机会,也是公司数据科学界的学习机会。从这个角度来看,大量的诺华员工选择积极参与,并有机会扩展他们的数据科学技能,这一点令人鼓舞。

能否准确估计成功概率,对于有效的风险管理和资源分配至关重要。表现最好的团队在他们的获胜方案中提供了关于预测成功概率的经验:识别预测成功概率的新特征;结合领域专业知识和机器学习,为特征提取提供新的方法和手段;为问题引入额外数据类型,如非结构化文本和生化数据。

然而,DSAI挑战也有几个限制。首先,P2APP数据集是按时间划分的,将2016年以前失败或成功的药物-适应症对作为训练数据,而将2016年或以后失败或成功的药物-适应症对作为测试数据。然而,由于药物开发的性质,一些边界效应不可避免地出现在最后几年的测试数据中。因为药物的失败往往比那些被批准的药物要快得多,2018年以后完成的试验大多以失败告终。

第二,在实践中,一些信息在决策时无法得到,这对于将竞赛中的预测任务应用于现实世界中的商业问题带来限制。

我们还收到知识渊博的参赛者的反馈,称核心数据集缺乏决策者通常会考虑的关键信息,如临床前数据、详细的安全性和疗效数据以及作用机制的生物学合理性。出于战略考虑,研究者通常不会将这些信息公布在公共领域。最近在自然语言处理的深度学习方法方面取得的进展,有可能克服这一限制,这可能使有关试验方案、开发计划和药物的信息从非结构化的文本数据源中提取出来。

结论

通过利用众包的力量和诺华研究人员在跨学科团队中的领域专长,我们展示了DSAI挑战赛的模型在生成药物开发结果预测模型方面的潜力,其表现优于学术文献中的现有模型。除了在麻省理工学院的研究中验证了以前与药物批准相关的特征外,DSAI挑战还为药物批准和失败的驱动因素提供了新的见解。最终,这些新的预测模型可以用来增强人类的判断力,以便在投资组合风险管理中做出更明智的决定。

尽管如此,在这次竞赛中,仍然有一个明显的机会来进一步改进模型。我们相信,如果能够获得更高质量和更全面的数据,以及更广泛的挑战赛参与者,就可以开发出更准确的模型。

参考资料

Siah KW, Kelley NW, Ballerstedt S, et al. Predicting drug approvals: The Novartis data science and artificial intelligence challenge. Patterns (N Y). 2021;2(8):100312. Published 2021 Jul 21. doi:10.1016/j.patter.2021.100312

https://www.sunnewsonline.com/novartis-powered-tech-predicts-health-risk-seven-years-ahead/

----------- End -----------

0 人点赞