药物发现是一个多参数优化的过程。
2022年2月26日,J Comput Chem杂志发表了来自知名AI药物发现公司Iktos的Yann Gaston-Mathé等人的一项早期的工作,展示了如何用深度学习实现药物分子的多参数优化。
摘要
多参数优化是药物发现中的一个主要挑战。最近,有报道称深度学习生成模型应用于从头分子设计取得了可喜的成果,但据我们所知,直到现在还没有这种新技术在实际药物发现项目中解决多参数优化问题的报道。
我们评估了基于配体的从头设计技术的潜力,使用深度学习生成模型来加速获得同时满足11个不同生物活性指标的先导化合物。基于Servier公司的项目的初始数据集,我们为所有11个指标建立了QSAR模型,具有中到高的性能 (在一个独立的测试集上精度在0.67和1.0之间)。我们基于DL的从头设计算法,结合QSAR模型,生成了150个预计在所有指标上都具有活性的虚拟化合物。11个化合物被合成和测试。
人工智能设计的化合物平均满足了11个指标中的9.5个指标 (即86%的成功率) ,而初始的分子在所有指标上只有6.4个 (即58%的成功率)。人工智能设计的分子中,有一个对所有11个测量指标都有活性,有两个对10个指标有活性,而对最后一个指标则处于检测的误差范围内。人工智能算法设计了具有官能团的化合物,尽管这些官能团在初始数据集中很少或不存在,但结果证明对MPO非常有益。
1 引言
药物设计是一项具有挑战性的任务。从hit识别到hit-to-lead和lead optimization (LO),发现一个具有理想性质的新化学实体 (NCE) 的探索是很繁重的。为了解决多参数优化 (Multi-parameter optimization, MPO) 的挑战,需要探索几乎无限的化学空间 (1060个类药分子)。
基于结构和配体的计算机辅助药物设计 (CADD) 技术 (如对接、QSAR等),是为了提高药物设计过程的效率而开发的,在过去几十年中取得了显著的进展。CADD对化学空间的计算探索大多是通过对预先存在的或虚拟的化合物库进行虚拟筛选来完成的,探索本质上被限制在初始化合物库中。最近药物发现的人工智能方法的发展,更具体地说,通过使用深度生成模型进行从头药物设计,引起了CADD社区的极大兴趣。
用于分子设计的生成模型可以由三个主要特征来描述:(1) 它们使用哪种分子表征法;(2) 它们如何生成分子;(3) 它们如何进行性质优化。
已有许多方法被报道,每种方法在这些特征方面都有不同的方法。(i) 分子表征可以是文本 (SMILES, SELFIES, DeepSMILES)、图形或一组片段。它也可以依靠深度生成模型,如递归神经网络 (RNN)、自动编码器 (AE) 或生成对抗网络 (GAN)。(iii) 性质优化策略可以基于强化学习、连续优化、贝叶斯优化、遗传算法或粒子群优化。
尽管在生成模型方面有大量的研究,而且它有可能允许有效地探索化学空间,以确定具有所需的计算特性的新分子,但这种基于人工智能的方法在复杂的现实情况中解决MPO问题的好处的证据仍然难以捉摸。
最近的一些工作在MPO项目中产生了新的分子,然而,他们都没有使用真实的项目数据集。
在此,我们描述了基于深度生成模型的配体从头设计在一个真实的LO阶段药物发现项目中的应用,以及其如何促进符合项目标准的优化的先导化合物的发现。这项研究是在2017年进行的,使用了一个在ChEMBL上训练的长短时记忆 (LSTM) 神经网络,使用teacher forcing的多指标奖励函数。从那时起,许多研究小组的工作推动了用于药物设计的更复杂的生成性人工智能方法的发展,然而这项工作提供了该技术的前瞻性现实验证的证据。
2 方法、数据和软件说明
2.1 项目数据集
数据集是由Servier公司提供的,来自一个已经运行了几年的LO阶段的内部真实药物发现项目。该项目数据集包括一个由881个分子组成的库,其中有来自11个生物试验的相关生物活性测量值:一个主要活性试验 (未披露的表型试验:30nM时的活性) ,6个脱靶试验 (对5-HT2A、5-HT2B、alpha1、D1、Nav1. 2, hERG:抑制率) 和4个ADME试验 (人的微粒体稳定性HLM和大鼠的微粒体稳定性RLM:稳定性的百分比;Caco2的渗透性和流出性试验:吸收和外排比率的百分比)。
对于每个指标,根据项目组设计的TPP (Target Product Profile) 定义了一个阈值。表1展示了每种检测的阈值、所测化合物的百分比和达到所需阈值的化合物的百分比。
表1. 初始数据集的统计信息 (每一栏代表一种测定方法)
a "Filled %"描述的是数据集中有数据的分子的百分比。
b Blueprint threshold是设定为每个检测中要达到的指标值。
初始数据集中的最佳分子和人工智能生成的11个合成和测试的分子在补充材料中以SMILES提供。
2.2 软件的可用性
以下软件包被用来执行这项工作:(1) QSAR模型是用Scikit-learn建立的;(2) Hyperopt被用来优化模型选择的超参数;(3) LTSM的训练和优化是用Tensorflow进行的;(4) Rdkit被用来准备SMILES,计算相似度,指纹和描述符。
2.3 QSAR模型的开发
生物活性数据根据TPP阈值进行分类 (即,如果符合TPP规范则为1,否则为0)。11个独立的QSAR模型是在Morgan指纹分子表征法的基础上用脊逻辑回归法建立的。
模型选择采用k-fold (k=4) 交叉验证法进行。它涉及两个参数:惩罚参数和操作阈值概率。一旦选择了惩罚参数,预测是否符合TPP的操作阈值概率 (图S1中记为1) 就会在前几个k-folds上选择,以最大限度地提高精度,减少召回率,从而降低假阳性的风险。在80%的数据 (即训练集) 上训练出来的最佳模型随后在初始数据集的剩余20% (即测试集) 上进行测试。
由于分类模型的性能更高,所以选择了分类模型而不是回归模型 (结果未显示)。
2.4 生成模型
如上所述,迄今为止已经报道了许多分子深度生成模型的架构。在本研究进行时 (于2017年启动),发表的架构较少。分子生成和性质优化策略受到Segler等人的启发,他们使用了一个深度RNN生成器。
2.4.1 分子生成策略
深度RNN被用来生成以SMILES表征的分子。LSTM首先在ChEMBL数据库上训练,使用teacher forcing,以建立一个基于字符的语言模型来生成SMILES字符串。
需要提醒的是,语言模型