作者:chriszyyang 腾讯CSIG基础研究工程师
|导语 在本篇文章中,我们首先向大家简单介绍耐药性的概念,以及展示耐药现象会对我们人类未来生存带来的巨大威胁。在临床实践中,耐药性通常是由直接影响药物结合的靶向蛋白质的突变所引发的。如果我们能够通过计算方法提前预测引起耐药性的蛋白质突变,这将会对精准医疗有着重要意义。因此,我们随后会简单介绍目前三种用于估计由靶点蛋白质突变引起耐药性的基于物理和数据驱动的计算方法,以及分析各自方法的优点和缺点。最后,我们会带领大家解析如火如荼的机器学习方法在耐药性问题上正面临的一系列挑战。
耐药性或抗药性(Drug resistance)是指药物治疗疾病或改善病人症状的效力降低[1] 。
耐药性:人类健康的新威胁
世界卫生组织推测,到2050年,由抗生素和抗癌药物的耐药现象导致的死亡,会成为人类在未来生存的头号杀手。在临床实践中,病原体或者癌细胞获得性耐药突变的出现几乎是不可避免的,经过一段时间的用药后,药物会变得低效或者无效。例如,著名的超级细菌耐甲氧西林的金黄色葡萄球菌,这个名字太长,大家就把它简称为MRSA。最早的时候,青霉素就能轻松搞定这种细菌,可随着抗生素的普及,没有抗药性的金黄色葡萄球菌都被杀死了,剩下的都是有抵抗力的变异物种。发展到今天,MRSA对多种抗生素产生耐药,致使MRSA引起的感染一旦发生,常难以控制。再例如,酪氨酸激酶抑制剂(TKIs)可以抵抗许多恶性肿瘤,如慢性粒细胞白血病(CML)和非小细胞肺癌(NSCLC)。特别是靶向酪氨酸激酶Ab1的TKI,它是用于治疗CML的一线疗法。然而,由于对抑制剂抗性的产生,通常需要持续开发新一代抑制剂。因此,耐药性是开发抗微生物和抗癌疗法中需要克服的主要挑战之一。
图1. 耐药性感染或将成为下一场大流行。
图2. 靶向药物耐药突变预测新策略示意图。初始的癌细胞群体(a)中大部分为药物敏感细胞,少量为耐药细胞,经过一段时间的第一代药物临床治疗后,药物失效,癌细胞群体逐渐改变到状态(b);这时必须使用第二代药物进行治疗才能继续杀死癌细胞;经过一段时间的应用后,第二代药失效,需要第三代药,该过程不断重复,新一代药物的研发需要紧跟癌细胞耐药性的发展;而对最新一代上市药物产生耐药性的病人面临无药可用的困境。(c)可以在药物耐药细胞出现的前1-3年进行新一代药物的前瞻性研发,从而加速抗耐药性药物研发的进程,为临床耐药性突变做好药物储备。
耐药性的产生机制
耐药性的产生有多种机制,包括药物外排增加以及其他替代的信号通路的激活,但通常是由直接影响药物结合的靶向蛋白质的突变所引发的。刚刚列出的两个小例子,都是由于靶点蛋白质突变从而导致抗耐药性。具体而言,MRSA是通过对青霉素的蛋白结合部位进行修饰,使细菌对药物不敏感。酪氨酸基酶抑制剂产生耐药性主要是由于酪氨酸基酶Ab1突变引起。因此,提前预测这些能够引起抗性的蛋白质突变对于个性化医疗有着重要意义,并且有助于开发联合治疗手段。大规模的进行实验鉴定虽然是可以实现的,但价格昂贵,操作也不是十分便利,而计算方法可以系统地做出预测。
计算方法预测耐药性
目前报道的计算方法对配体结合亲和力变化以及耐药性突变进行预测主要分为三种类型[2]:(1)分子动力学(MD)模拟和非平衡自由能计算方法[3];(2)使用混合的物理和经验势能的建模程序Rosetta[4];(3)机器学习(ML)。第一类计算方法MD是基于统计力学第一性原理的方法来评估化合物(配体)与野生型以及突变型的蛋白靶点(受体)之间的相对结合自由能差ΔΔG,来预测耐药性突变。第二类计算方法Rosetta使用蒙特卡罗算法对野生型和突变型蛋白的多种构象进行取样,并利用全原子的Rosetta能量函数评估野生型以及突变型蛋白的能量差ΔΔG,来预测耐药性突变。第三类计算方法是机器学习方法,在文献[2]中,作者在对多种机器学习模型进行筛选测试后,最终选择极端随机回归树模型来预测靶点突变耐药性预测。通过从靶点-配体的晶体结构中提取特征,如:氢键,非极性接触,残基-配体距离等。这些提取的特征不依赖于任何特定的物理模型。我们可以通过计算来生成野生型以及突变型蛋白的特征能量差ΔΔG,预测耐药性突变。
图3. 基于MD的自由能计算中使用的热力学循环。
在文献[2]中,作者展示了基于物理和数据驱动的计算方法如何用于准确估计由单点突变引起的酪氨酸基酶Ab1对TKI的亲和力的变化。为了测试不同的方法,使用了有144个样本的酪氨酸基酶Ab1数据集[5]。这个数据集记录了在31个在Ab1靶点上的单点突变引起8种抑制剂TKIs结合亲和力变化(ΔΔG)的信息。表1中展示了不同类型的计算方法在耐药性问题上的预测性能和计算成本。从结果可以看出,这三种方法都能够在一定程度上预测Abl突变后对TKI的亲和力变化并识别引起耐药性的突变。这些方法各自有不同的优点和缺点:基于MD的计算可以较为普适地使用针对基于有机分子的物理性质的力场参数预测出准确的结果,缺点是获得精确的ΔΔG估计需要相对较高的计算成本。Rosetta考虑了蛋白质-配体构象的集合,并且其打分函数基于有机分子和生物分子的简单物理和结构特性,在准确性,普适性都和计算成本之间取得了很好的平衡。机器学习方法在计算成本上有非常大的优势,可以在几秒到几分钟内生成估计野生型以及突变型蛋白的能量差ΔΔG,但是模型预测的结合亲和力准确率非常低。
表1. 不同方法的预测性能和计算成本统计。
方法 | 类别 | 每个ΔΔG估算的近似成本 | 性能 | |||
---|---|---|---|---|---|---|
硬件资源 | 计算时间(小时) | RMSE (kcal/mol) | Pearson | AUPRC | ||
OP3 | 分子动力学 | 1 GPU | 72 | 1.07 | 0.49 | 0.56 |
C22 | 分子动力学 | 10 CPU cores and 1 GPU | 59 | 1.03 | 0.24 | 0.25 |
A99 | 分子动力学 | 10 CPU cores and 1 GPU | 59 | 0.91 | 0.44 | 0.56 |
A99l | 分子动力学 | 10 CPU cores and 1 GPU | 98 | 0.91 | 0.42 | 0.51 |
R15 | Rosetta | 1 CPU core | 32 | 0.72 | 0.67 | 0.53 |
R16 | Rosetta | 1 CPU core | 32 | 0.83 | 0.59 | 0.39 |
ML | 机器学习 | 1 CPU core | 0.02 | 0.87 | 0.12 | 0.2 |
面临的挑战
那么,是什么原因导致机器学习方法在耐药性预测问题上的准确率如此低呢?带着这个疑问,我们试图从以下几方面来分析,寻找答案。一方面,由于体外实验成本十分昂贵,导致我们可收集到的化合物与野生型以及突变型的蛋白靶点亲和力变化的数据非常困难。这样一来,可供模型学习的基准数据集很少,而且数据集中的样本量很小,通常仅仅只有几百个样本。而一般的机器学习和深度学习模型需要在拥有大量数据集和足够的计算资源时,才能够取得很好的效果。在这种小样本训练集的情况下,机器学习和深度学习模型效果不佳。另一方面,不同数据集收集到的靶点亲和力变化数据可能来自不同的蛋白质家族,不同蛋白质家族的数据可能会导致数据特征分布差异大,促使模型的泛化能力变差。此外,生物医药数据中存在着大量的噪音,如何降低噪音对模型的影响,也是研究人员们普遍面临的一大挑战。最后一点,刚刚我们提到,作为模型的输入特征,其提取的方式都是不依赖于任何特定的物理模型。那么,这可能会导致我们不能精确地提取靶点蛋白质与化合物分子之间的相互作用能量信息,致使模型在学习过程中没有学习到这些更有价值的能量信息。
本篇文章中讲述的引起耐药性的机制主要是由于靶点蛋白质单点突变而导致的。然而在实际情况中,往往存在更加复杂的情况,如靶点蛋白质的多点突变。面对更加复杂的情况,使用计算方法预耐药性将面临更大的挑战,这需要各个领域的科学家们持续深入的探索和研究,为人类的医疗健康事业做出贡献。
参考文献
[1] 维基百科,耐药性:https://zh.wikipedia.org/wiki/抗藥性 [2] Aldeghi, Matteo, Vytautas Gapsys, and Bert L. de Groot. "Predicting kinase inhibitor resistance: physics-based and data-driven approaches." ACS central science 5.8 (2019): 1468-1474. [3] Gapsys, Vytautas, et al. "pmx: Automated protein structure and topology generation for alchemical perturbations." (2015): 348-354. [4] Barlow, Kyle A., et al. "Flex ddG: Rosetta ensemble-based estimation of changes in protein–protein binding affinity upon mutation." The Journal of Physical Chemistry B 122.21 (2018): 5389-5399. [5] Hauser, Kevin, et al. "Predicting resistance of clinical Abl mutations to targeted kinase inhibitors using alchemical free-energy calculations." Communications biology 1.1 (2018): 1-14.
近期热文
【Node开发】分布式调用限频限流的开发设计
解决单点故障 - 有状态服务的高可用
如何输出有价值的商业解决方案?
让我知道你在看