编译|夏忻焱 审核|沈祥振
今天带来的是 Abraham C. Stern 和Artem Cherkasov联合课题组的Mohit Pandey发表在《nature machine intelligence》的评论文章《GPU计算和深度学习在药物发现领域中的变革作用》。
深度学习几乎颠覆了每一项研究领域,包括对药物发现有直接重要性的领域,比如药物化学和药理学。这场革命在很大程度上归功于高度并行化的图像处理单元(GPU)的空前进步和支持GPU的算法的发展。这篇评论文章全面介绍了GPU算法的历史趋势和最新进展,讨论了它们对发现新药和药物靶点的直接影响。此外,还介绍了最先进的深度学习架构。这些架构在早期的药物发现和随后的命中率优化阶段都有实际应用,包括加速分子对接,评估脱靶效应和预测药理特性。最后,这篇文章探讨了GPU加速和深度学习模型对药物发现领域的全球民主化的影响。它可能会帮助有效探索不断扩大的化学世界,加速发现新药。
GPU最初开发用于加速 3D 图形, 之后它强大的并行计算能力很快得到了科学界的好评,NVIDIA和AMD相继开发GPU 的编程框架以促进机器学习的发展。生物信息学、化学信息学、化学基因组学领域以及计算机辅助药物发现共称为CADD,已经利用了在 GPU 上运行的深度学习方法。CADD 中的大多数挑战通常都面临组合学和优化问题,而机器学习已经有效地为它们提供了解决方案。因此,DL 在 CADD 应用中取得了重大进展,例如虚拟筛选、从头药物设计、吸收、分布、代谢、排泄和毒性 (ADMET) 特性预测等(图 1)。
在这里,作者讨论了 GPU 支持的并行化和 DL 模型开发和应用对蛋白质和蛋白质-配体复合物模拟的时间尺度和准确性的影响。作者还提供了用于低温电子显微镜 (cryo-EM) 中的结构确定和蛋白质 3D 结构预测的 DL 算法示例。
1
分子模拟中的GPU计算和深度学习
GPU的加速来自于大规模的数据并行性,它产生于对数据的许多元素进行的类似独立操作。在图形学中,一个常见的数据并行操作的例子是使用旋转矩阵跨坐标描述视图旋转时物体的位置。在分子模拟中,数据并行可以应用于原子势能的独立计算。同样的DL模型的训练涉及到前向和后向传递。这些传递通常用矩阵转换表示,很容易并行化。
1.1 在GPU上的加速分子动力学模拟
在过去的十年里,相比于以CPU为中心的算法,以GPU为中心的分子动力学代码使模拟计算成本降低了数百倍。因此,大部分分子动力学引擎都提供了GPU加速实现。GPU不仅适合加速分子动力学模拟,还可以利用空间域分解来很好地扩展系统规模。因此,分子动力学模拟扩展到了更广阔的生物分子现象,接近病毒和细胞水平,更接近实验时间尺度。最近方法和算法的进展使得分子动力学模拟的分子规模达到了2x109个原子(图 3),总体模拟时间是微秒甚至毫秒。
自由能模拟是另一个受益于GPU发展的领域。比如相对结合自由能计算、热力学积分和自由能扰动等方法现在使得可以计算出大量蛋白质-配体复合物的可靠结合亲和力。最近基于神经网络的力场的发展,如ANI(分子能量的精确神经网络引擎)和AIMNet(原子-分子网),提供了自由能模拟的工业标准精度。《美国化学协会杂志》基准集中的络氨酸-蛋白质激酶2抑制剂的基准显示,使用ANI机器学习潜力的模型降低了50%的绝对结合自由能误差。用于增强抽样的重新加权自动编码变异贝叶斯方法成功用于模拟配体-蛋白质解离。它的处理速度明显快于传统的分子动力学,但仍然准确地估计了结合自由能和环型构象采样。同样,Drew Benn等人使用DNN预测来自分子动力学模拟的小分子的水到环己烷的转化能量。在开源框架的支持下,也有人提出使用混合DL和分子的势进行配体-蛋白模拟。这些方法用基于量子力学的DL势作为配体,用分子力学作为周围的环境。与传统势相比,可以更好地再现结合姿势。
1.2 量子力学和GPU
CUDA和OpenCL的API是GPU应用成功的关键。实现高效率,需要同时执行被分组为块的线程。TeraChem是第一个专为GPU编写的量子化学代码。混合精度的算数可以非常有效地计算库伦和交换矩阵。TeraChem的最新算法的研发可以用密度函数理论(DFT)模拟整个蛋白质。混合量子力学-分子力学模拟细菌后穹窿蛋白的非绝热动力学可以观察光激活机制,还可以帮助理解光能转换为功的分子水平。DFT计算现在是研究蛋白质-配体相互作用的常规方法。例如,最好的计算结果是蛋白质-配体相互作用能量的平均绝对误差约为2千卡摩尔。对血清蛋白酶因子X和络氨酸蛋白激酶2的DFT计算表明,所得到的几何形状接近于共晶体的蛋白配体结构。
未来的超大规模超级计算机将在异构的CPU和GPU环境中提供高水平的并行性。这种扩展需要开发新的混合算法,并从本质上重写科学代码。这些新的发展现在正作为NWChemEx包的一部分来实施。NWChemEx将提供对系统进行量子力学和分子力学模拟的可能性,这些系统比理论方法的经典公司所能解决的要大好几个数量级。
1.3 蛋白质结构的测定中的GPU加速
低温电镜的高通量和自动化变得越来越重要,因为它是用于蛋白质结构测定的最先进的实验技术,可用于基于结构的药物设计。基于DL的方法,如DEFMap和DeepPicker,已经开发来加速低温电镜图像的处理。DEFMap方法通过结合DL和学习局部密度数据之间关系的分子动力学模拟,直接提取于于隐藏原子波动相关的结构动力学。DeepPicker采用卷积神经网络(CNN)和跨分子训练,从先前分析的显微照片中捕捉粒子的共同特征,这有利于从单粒子分析中自动挑选例子。这个工具说明DL集成可以成功地解决目前在实现全自动低温电镜管道方面的差距,为蛋白质科学的一种新的多科学方法铺平了道路。
除了通过低温电镜加速原蛋白结构的实验表征外,最近的DeepMind和AlphaFold2方法在蛋白质结构预测关键评估(CASP)挑战中取得了突破性成功,表明了DL算法在蛋白质结构表征和扩展可药用蛋白质组的未来影响力。AlphaFold2不需要接触过类似的结构,就能够以原子级的精度定期预测蛋白质的几何形状。最近更新的基于神经网络的模型在大多数情况下表现出与实验相竞争的准确性,而且在第14届CASP比赛中远超过其他方法。AlphaFold2背后的DL模型结合了关于蛋白质结构的物理和生物知识,利用多序列比对来破解生物学中最古老的问题之一。AlphaFold2用来预测几乎所有已知的人类蛋白质和其他对医学研究很重要的生物体结构,总计35万个蛋白质,这对生物医学的研究来说是个了不起的成就。
2
计算机辅助药物发现(CADD)中深度学习的出现
DL的进步,特别是在计算机视觉和语言处理方面,使CADD研究人员最近对神经网络重新产生了兴趣。默克公司通过2012年的Kaggle分子活动挑战赛将DL普及到CADD中。Dahl等人的获胜方案利用了多任务学习的方法来训练一个DNN。此后,许多研究人员将这种模型用于药物发现问题。这些问题包括评估治疗药物的要理性为及其不良反应的预测因素,小分子与蛋白质结合的预测,确定致癌细胞的化疗反应,药物敏感性的定量估计和定量结构-活性关系(QSAR)建模等等。
支持GPU的DL架构的出现和化学基因组学数据的激增,导致了有意义的CADD支持的临床候选药物的发现。此外,人工智能(AI)驱动的公司(如BenevolentAI、Insilico Medicine和Exscientia等)正在报道增强型药物发现方面的成功。例如,Exscientia开发了一种用于治疗强迫症的候选药物DSP-1181,该药物从构思到使用人工智能方法不到12个越就进入了第一阶段的临床试验。Insilico医药公司刚刚开始了其第一个AI开发的治疗特发性肺纤维化的候选药物的临床实验。BenevoAI确定baricitinib是对COVID-19的一种潜在的治疗方法。这些最近的成功案例表明,在GPU计算的支持下,进一步推广和应用人工智能驱动方法可以很大地加快发现新的和改进地药物。
2.1 CADD中的深度学习架构
从现有的或合成可行的化学库的虚拟筛选中找到应用的鉴别神经网络到最近DL生成模型的成功,这激发了它们在从头药物设计中的应用。这篇评论描述了常用的最先进的DL结构的常用方法,具体可以查看原文的图4。另外评论中还用表格列举了它们在CADD中的采用情况,具体可以查看原文中的表1。
2.2 利用GPU和深度学习扩大虚拟筛选的规模
基于结构的虚拟筛选和基于配体的虚拟筛选旨在计算出的化合物与靶点的亲和力,然后根据亲和力对其排序,并将小分子之间的结构相似性推断为功能等同性。随着可购买的配体库的指数式增长,已经包括数百亿的可合成分子,人们对通过对接计算的并行化或基于DL的加速来扩大传统虚拟筛选的规模越来越感兴趣。
最近开发了许多基于结构的虚拟筛选方法,用来有效地筛选数十亿条化学库。第一个例子是VirtualFlow,它可以几个星期内在大型CPU集群(约10,000个核心)上筛选10亿个分子,同时显示出线性扩展行为。和VirtualFlow及其他基于CPU的方法不同,使用OpenCL和CUDA库使对接算法进行GPU加速,通过将整个蛋白质表现划分为任意独立的区域(或斑点)或在异质计算系统中结合多核CPU架构和GPU加速器,部分解决了高通量瓶颈问题。这种策略的一个最新的例子是Autodock-GPU。它通过并行化姿势搜索过程,使其能在大型GPU集群上,如顶峰超级计算机(约27000个GPU)上一天筛选十亿个分子。因此,这些在高性能计算上利用GPU计算的方法可能会帮助从大型的多样化的化学文库中确定新的先导化合物,或者加速其他基于结构的方法,比如反对接。然而,计算成本仍然很高。对那些无法接触到精英超级计算集群的药物发现组织来说,可能会令人望而却步。
另一方面,最近出现了其它基于结构的虚拟筛选平台,利用DL预测和分子对接来促进从计算资源有限的大型苦衷选择活性化合物。这些方法中最主要的策略是实现经典计算帅选分数的DL模拟器,它依赖于比传统对接更高一个数量级的推理速度。预测性DL模型是用各种化学结构表示来构建的,从分子指纹到更复杂的嵌入,以过滤掉化学库的大部分。Deep Docking是最早的方法之一,它依赖于一个全连接的MLP模型。该模型用化学指纹和库中的一小部分分数进行训练,然后用来预测剩余分子的对接分数等级,允许在不对接它们的情况下删除低排名的条目。深度对接最初用Ton等人部署,使用Glide对抗SARS-CoV-2主要蛋白酶,从ZINC15中筛选出13亿个分子。最近Gentile等人还将其应用于不同的对接程序,来筛选400亿个的商用分子来对抗SARS-CoV-2主蛋白酶,从而发现了新的经实验证实的抑制剂支架。其它类似的方法是依赖于预测对接结果的DL模型,如MolPAL(基于分子池的主动学习)和AutoQSAR/DeepChem。Hofmarcher等人也在由超过10亿个化合物的ZINC数据库上进行了基于配体的病毒筛选。与暴力方法相比,这些基于DL的方法可能在使得学术研究组和小微型工业接触到化学空间方面发挥重要作用。
3
支持GPU计算的深度学习促进了科学的开放和药物发现的民主化
这里介绍的CADD中的DL整合对药物发现和开放科学努力的全球民主化做出了巨大贡献。开源DL包DeepChem、ATOM、Deep Docking、MolPAL、OpenChem、GraphInvent和MOSES等,使用流行的机器学习库(包括但不限于scikit-learn、Tensorflow和Pytorch)简化了DL策略到药物发现管道的集成。对DL模型的大型数据的需求日益增长,这自然地鼓励了数据共享的实现,以及对更广泛的开放数据政策的呼吁。此外,云原生计算和面向微服务的架构中的GPU加速可以使CADD方法免费和广泛可用,有助于计算模块和工具以及架构、平台和用户界面的标准化。DL解决方案可以利用公共云服务,如亚马逊网络服务、谷歌云平台和微软Azure,通过降低成本来促进药物的发现。
尽管这些新的支持DL建模机会令人兴奋,但CADD科学家需要对DL技术的预期影响持谨慎态度。需要从20多年来数据驱动的分子建模的经验教训和最佳实践中得出现实的期望。例如,数据的质量、数量和多样性不仅会妨碍CADD模型的准确性,也会妨碍其整体的通用性。因此,数据清理和整理将继续发挥重要作用,它可以单独决定这类DL应用程序的成败。另一方面,使用来自指导性实验或高水平计算机模拟的动态数据集可以促进主动学习策略的使用。正如AutoQSAR工具所实现的那样,交互式训练和评估可以极大地改善模型质量。除了预测模型,DL解决方案在结合生成模型和基于RL的决策方法时特别有用。基于奖惩规则的优化可以使具有所需化学和功能特性的化学结构实现前所未有的 "点菜 "式设计。这种同时将具有化学和生物学意义的作用强制纳入从头药物设计的方法,代表了与更传统的黑盒DL解决方案的巨大不同。
开放科学的努力正受益于最近的端到端DL模型,这些模型可以在使用GPU的药物发现的所有阶段实现。最近开发的这样一个平台是IMPECABLE,它集成了多种CADD方法。Al Saadi等人将分子动力学在预测结合自由能方面的优势与对接在姿势预测方面的优势结合起来。他们的解决方案不仅可以自动进行虚拟筛选,而且还可以进行线索的细化和优化。
NVIDIA Clara Discovery 是一个由GPU加速的框架、工具和应用程序的集合,用于计算药物发现,涵盖分子模拟、虚拟 筛选、量子化学、基因组学、显微镜和自然语言处理。这些平台旨在实现开放和交叉兼容,并有望加速整合整个生物制药领域的不同数据源,从研究论文、病人记录、症状和生物医学图像到基因、蛋白质和候选药物。
许多主要的硬件制造商现在利用他们的计算专业知识进入了超级计算领域,通过使用多个GPU集群来训练大容量的DL模型,用于反应预测、分子优化和从头分子生成。CADD平台对药物端点采用DL模拟,使包含数百亿化合物的文库上的药物发现能够负担得起,即使对没有精英计算设施的小公司和学术实验室也是如此。
由于法律上的复杂性,各机构之间的专有数据共享仍然是简化药物发现研究的瓶颈。联邦学习允许参与的机构对其各自的非共享数据进行局部训练。然后,将经过训练的本地模型聚合到一个中央服务器中,以获得更广泛的可访问性。因此,联邦学习通过在某种程度上缓解数据交换的挑战来支持民主化,尽管有效的模型聚合仍然是一个活跃的研究领域。
4
总结和展望
现代药物发现受益于最近的DL模型和GPU并行计算的爆炸式增长。在硬件进步的推动下,DL在从虚拟筛选和QSAR分析到生成性药物设计的药物发现问题上表现出卓越地性能。特别是药物设计是GPU计算进步的主要受益者之一,因为它利用了大容量和高度参数化的模型,如VAE和GANs,如果不使用GPU等硬件加速器,就不能合理部署。不断提高的性价比GPU硬件,依赖DL地GPU和广泛采用DL地CADD近年来都是明显的事实,在过去的4年内有超过50%的“AI化学”文档发表在在CAS。此外,还采用了混合人工智能方法,结合传统的分子模拟和DL,来快速和准确地筛选接近数千亿分子的超大型化学文库。预计,越来越强大的GPU架构的可用性,加上先进的DL策略和GPU加速算法的发展,将有助于全球更广泛的科学界负担得起药物发现。
DL算法的另一个关键驱动力是“大数据”。随着基因测序和高通量筛选的日益容易,数据驱动的计算化学领域的研究人员很容易获得大量的原始数。然而,对监督学习方法至关重要的高质量的标记数据仍然是很贵。以辅助数据集学习为基础的方法、知识迁移学习和零射学习等标记保守方法已成为药物发现DL的核心部分。用于药物发现开发的DL方法的可靠性和通用性都严重取决于来源数据的质量。因此,数据清理和管理发挥着重要的作用,它能决定这种DL应用程序的成败。因此,深入探索集中、处理和标签良好的数据存储库的假定好处仍然是一个开放的研究领域。
总的来说,药物发现和机器学习领域的研究人员们已经合作来识别CADD子问题和相应的DL工具。未来几年,这些应用将得到微调和成熟,这种合作将进一步发展到生命科学中其他开发不足的领域。因此,联邦学习和协作机器学习也正在受到关注,相信它们将成为民主化的药物发现革命的先驱。
参考资料
Pandey, M., Fernandez, M., Gentile, F. et al. The transformational role of GPU computing and deep learning in drug discovery. Nat Mach Intell 4, 211–221 (2022).
https://doi.org/10.1038/s42256-022-00463-x