Drug Discov Today｜赛诺菲：机器学习引导的早期小分子药物发现

2022年3月29日，赛诺菲的NikhilPillai等人在Drug Discov Today杂志发表文章，分析和反思了机器学习在临床前小分子药物发现中的多种应用，并简要介绍了机器学习任务中的分子表征方法。

亮点

机器学习有可能减少药物发现的时间和成本。

目前的机器学习方法主要集中在寻找hit、lead优化和分子生成。

我们讨论了机器学习应用于分子筛选和优化、候选药物选择的潜力。

介绍了当前药代动力学预测和分子生成方面的进展。

摘要

机器学习方法已经在药物发现的早期阶段被广泛采用，特别是在小分子候选药物的研究中。尽管如此，在药代动力学/药效学 (PK/PD) 的应用领域，机器学习的使用仍然有限。在此，我们描述了临床前药物发现中使用机器学习的最新进展和作用。我们总结了根据小分子结构预测ADME特性的进展和当前的策略、根据分子筛选和优化所需的特性来预测结构的策略。最后，我们讨论了如何使用机器学习来预测PK，以对候选药物达到适当暴露的能力进行排序，从而对安全性和有效性提供重要的见解。

引言

药物发现是一项复杂而具有挑战性的任务，有分析表明研发效率持续下降。目前的药物发现模式是一个定义明确的过程，当化合物显示出对生物靶点的活性时，从"靶点识别"到"lead识别"到"lead优化"，最后到"候选药物选择"。整个过程可能是耗时和资源密集型的，高度依赖转化方法，其中涉及的假设由于缺乏人类数据而可能无法验证，因此对所研究的药物而言可能是不正确的。由于这些假设，一个新的分子实体 (NME) 可能会在药物开发的后期阶段才知道它是否会在人类身上引起足够的反应。这些后期阶段的失败导致了巨大的资本损失和更高的药物开发成本。

在药物发现的lead优化阶段，人们使用各种体外试验对分子进行评估，以确定其效力、理化特性和ADME特性。随后进行临床前体内研究，以确定药代动力学 (PK) 和药效学 (PD) 的特征。PK是对药物动力学的研究，主要取决于体内的ADME过程，而PD则是对药物在体内的影响进行量化，它可以包括多种动力学，如生物标志物反应、肿瘤进展、细胞因子释放和其他。此外，身体的生理机能也会挑战药物的暴露，从而影响其疗效。

跨研究产生的数据被整合到用于预测安全有效的临床剂量和方案的转化方法中。尽管很难根据化合物的内在特性或体内临床前行为来预测临床疗效，但影响疗效的主要因素通常归因于药物安全达到有效暴露的能力。

仪器和量化方法的技术改进使大量的分子能够被筛选出效力和ADME特性，从而对大量的分子进行分流以确定高质量的候选药物。这个过程产生了大量的数据集，可用于机器学习，根据分子结构预测各种特性。这些大型数据集可以被纳入机器学习模型，在没有实验的情况下，可以降低NME的风险状况。通过利用机器学习模型，人们可以增加筛选的化合物数量，并减少筛选时间。这种模式使研究人员能够从完全依赖专家直觉的"试错"方法转向更有效和自动化的筛选和选择策略。尽管在药物发现管线的早期阶段已经记录了多种努力，如使用靶点识别和hit寻找，但这些技术在后期阶段的应用潜力仍不清楚。我们相信，机器学习的应用可以大大减少目前在体外和体内的药物反应表征方面的实验负担和时间。为此，现在有越来越多的工作试图描述和捕捉存在于分子结构、特性和PK行为之间的隐性关系。

在这篇综述中，我们试图分析和反思这些不断增长的工作，特别是关注机器学习在临床前环境中，对减少选择最佳临床候选药物的不确定性的作用。我们将重点讨论在临床前环境中可以利用机器学习的小分子药物发现的各个方面，特别是侧重于分子筛选和优化以及候选药物的选择。为了进一步帮助读者并帮助他们了解该领域的背景，我们在Box1中简要介绍了机器学习任务中使用的分子表征方法，在Box2中概述了文中提到的机器学习算法。

Box1 机器学习模型中使用的分子表征方法

在为分子特性预测或生成任务设计机器学习算法时，一个重要的考虑因素是分子表征方法。这可以影响所使用的机器学习模型的架构，以及预先决定所需计算资源的计算复杂性。在此，我们简要介绍一下大多数为药物发现和开发任务设计的机器学习算法中使用的分子表征技术。

分子表征方法可分为三类。(i) 基于描述符；(ii) 基于自然语言；或(iii) 基于图形嵌入 (图1)。

基于描述符的分子表征方法又分为两种，第一种是直接使用从分子结构中得出的定量属性，比如通常由化学信息学软件 (如RDCit) 计算出来的定量属性。这些定量属性编码分子的特定功能属性，可以是一维 (即只编码单一属性，如分子量) 或多维 (即编码分子的多个物理化学方面，如 eccentricity或spherocity)。第二种基于描述符的方法是利用分子指纹，它是映射化学空间的计算方法。这些指纹编码了机器可读的结构表征，一般是位向量，较少见的是计数向量 (图1a)。

第二类分子表征是基于自然语言的原则，它应用正式的语法规则来定义分子结构，如SMILES或InChI (图1b)。这些表征法常用于深度学习算法，用于属性预测以及分子生成。这些方法的一个延伸是SMARTS (simplified molecular-input line-entry system)，它指定了分子中的子结构模式。基于语言的表征法也常用于在分子数据库中存储信息，随后可用于转换为分子描述符，用于随机森林或支持向量机等机器学习方法。

基于图的方法是对图论原理的自然调整。在图论中，图被视为节点和边的集合，而分子可以被视为原子 (类似于节点) 和键 (类似于边) 的集合 (图1c)。近年来，基于图的表征方法获得了很大的发展。这些方法被用于基于图的深度学习方法，如图卷积网络 (GCNs) 或消息传递神经网络 (MPNNs)，它们在属性预测和分子生成任务中表现出卓越的性能。然而，这些表征方法仍然面临着与表征立体异构体有关的问题，这些方法无法区分不同的立体异构体，因为它们具有同构结构。

图1. 分子表征中使用的方法和该领域使用的机器学习模型概述。这里，我们以阿司匹林为例，说明 (a) 基于描述符的方法，(b) 基于自然语言的方法和 (c) 基于图的方法。

图2. 机器学习方法主要分为：(a) 传统的机器学习方法，包括随机森林、支持向量机和高斯过程等低数据 (low-data) 方法；以及(b) 利用神经网络的深度学习方法。

Box2 用于药物发现和开发的机器学习算法介绍

这里讨论了两组主要的机器学习方法。这些方法分为传统的机器学习方法 (如基于树的方法、潜在变量方法) 和深度学习方法 (图2a、b)。我们为读者提供了文中提到的方法的简要描述。

最常用的机器学习方法包括决策树或基于树的方法。这些方法是非参数方法，用于回归和分类。基于树的算法的一个例子是随机森林，其中模型输入变量的多个随机子集被用来生成多个决策树，输出是生成的树的平均值 (回归) 或模式 (分类) (图2a)。另一种算法是支持向量机 (SVM)，其操作的超平面概念要么是对所分析的类别进行最佳划分 (用于分类)，要么是适合最大数量的点。高斯过程是一种非参数贝叶斯方法，也非常常用。最后，潜变量方法，如部分最小二乘法，其中预测变量和目标变量方法被线性投影，同时将两者之间的关系联系起来也用于QSAR模型。

深度学习方法是该领域内利用的第二类模型 (图2b)。这类模型中使用的一些深度学习方法包括自动编码器 (一种学习输入空间的低维表征的神经网络) 和循环神经网络，它允许对时间关系进行建模，如语言模型 (或分子串表征)。其他深度学习方法是强化学习方法，这是一类不同于监督和无监督学习的模型。这些模型的目的是在给定的环境中使用试错法使奖励函数最大化，如在给定的设计空间中生成具有最佳特性的分子。

这些机器学习模型的使用取决于各种因素，包括任务的固有特征、数据的可用性和关于模型功能的基本假设。在早期的药物发现中，大量的数据以分子候选搜索空间的形式存在，深度学习方法被发现特别有利，因为这些算法对数据的要求很高。在较小的数据域任务中，如体内建模，简单的机器学习任务可能更有用，因为深度学习方法可能无法准确捕捉这些有限的数据体系中的潜在趋势。关于模型参数的基本假设在算法选择中也起着重要作用。例如，如果假设潜在的响应面是线性的，可以使用偏最小二乘法。然而，在非线性响应面的情况下，其他机器学习模型，如支持向量回归、高斯过程或基于树的方法更合适。

机器学习应用于分子筛选和优化

一旦确定了合适的靶点并决定了预期的生物标志物，药物发现过程的下一步就是找到对特定靶点表现出治疗活性的分子并优化这些潜在分子。这被称为"hit-to-lead"生成阶段。在寻找hit阶段，HTS被用来从潜在的候选化合物库中找出对靶点有活性的化合物。然而，尽管HTS是目前最先进的筛选方法，但它并不一定能产生一个可行的分子。当人们想起这种努力所带来的广泛的搜索空间时，这一点尤其正确。例如，ZINC数据库包含了7.5亿个可供筛选的化合物。

当处理这种大的和难以处理的空间时，使用机器学习技术可以大大增加可行的hit数量。作为一个例子，Mehta和他的同事展示了使用贝叶斯学习，以对接分数作为代理，对分子空间进行有效的搜索，在只对6%的空间进行对接的情况下，能够发现90%的top hits。他们为他们的贝叶斯优化框架测试了三种分子表征技术：扩展连接性指纹 (ECFP)；Mol2Vec (一种无监督的预训练方法，用于生成分子向量)；以及连续和数据驱动的描述符 (CDDD)。为贝叶斯优化框架测试的代用机器学习模型 (surrogate model) 是高斯过程和深度高斯过程。作者在包含25万个分子的ZINC-250 k数据集、包含210万个分子的Enamine数据集和包含9600万个分子的超大型对接库上测试了他们的模型。虚拟筛选工作针对两种蛋白质受体进行了测试：Tau-管蛋白激酶1 (TTBK1，通常是神经退行性疾病的靶点) 以及SARS-CoV-2的主要蛋白酶。作者发现，最佳的分子表征方法主要取决于被访问的数据集的大小。代理模型的选择也取决于搜索空间，但程度较轻。他们的工作揭示了目前分子科学的机器学习文献中的一个重要问题，即分子表征法可以在很大程度上影响算法的性能，因此必须设计成与被分析的目标相匹配的表征方法。

在hit-to-lead优化阶段利用的另一种常见方法是使用QSAR进行属性预测。QSARs是用于揭示化合物的结构特性和生物活性之间关系的任何计算建模方法。为此目的使用准确的机器学习算法可以大大减少实验负担，告知药物化学家对一个给定靶点的最佳候选药物，而不需要进行体外和体内实验，从而节省时间和资源。

这种方法的一个例子是Wang等人的工作，他们使用各种机器学习算法，以人类腺癌细胞系 (Caco-2) 的渗透系数作为细胞培养模型来预测人类肠道的渗透性。他们的工作使用了多元线性回归、偏最小二乘回归、支持向量机回归和提升算法，发现提升算法最适合他们的应用。所有机器学习模型的输入是193个二维和三维分子描述符。除了建立渗透性的预测模型外，他们还能够利用描述符消减的方法确定哪些描述符是最重要的，并能够确定和分析他们的模型能够捕捉到的潜在生物机制。这些模型的优势可以进一步被理解，特别是当人们考虑到进行实验以估计体内药物渗透性所需的传统的高成本和长时间的细胞培养期 (21-24天)。

QSAR模型也有了很大的扩展，因此基于图形用户界面 (GUI) 的网络平台可以用来分析潜在的hit以评估多种特性。

ADMETlab是一个平台，可以进行药物相似性分析、ADME预测、系统评价和针对超过280,000个条目的大型数据库的相似性搜索。用户可以以SMILES字符串或SDF文件的形式上传自己的输入结构，或使用在线编辑器绘制结构。可能的分析包括使用Lipinski、Ghose、Oprea、Veber和Varma规则进行药物相似性预测，以及使用DrugBank和CHEMBL数据库的输入结构开发的分类模型。药物亲和性分类模型是使用MACCS指纹作为输入，并使用随机森林分类器作为基础机器学习模型建立的。此外，该模块有9个回归模型和22个分类模型用于预测ADMET终点。所有模型都使用分子描述符和指纹作为输入，并使用低数据机器学习方法，如随机森林、支持向量机和偏最小二乘法。

SwissADME是基于网络的工具的另一个例子，它提供了预测药物相似性、物理化学特性和PK行为的模型。与ADMETlab类似，该网络工具包含使用理化描述符和开源指纹作为输入的模型，以亲脂性、大小、极性、溶解度、柔韧性和饱和度作为代表属性来评估生物利用度。多种PK模型，包括使用Potts和Guy建议的多元线性回归预测皮肤渗透性的QSARs，Daina和Zoete使用BOILED-Egg模型预测血脑屏障渗透性和人类胃肠道被动吸收，也是SwissADME模块内的PK输出。此外，人们可以评估合成的可及性、杂乱性 (使用PAINS过滤器) 以及使用Brenk过滤器对测试的分子进行"类lead性"分析以找到可优化的候选分子。这些模型和平台提供了可访问的用户界面，药物化学家可以在其中评估大量的分子，并以合理的信心促进化合物的排序。QSAR模型的发展有了很大的提高，这些模型是针对某些靶点的，也是对小分子治疗活性的普遍评价。Neves等人曾简洁地总结了QSAR模型在虚拟筛选中的应用。

对预测一个给定分子的生物相关特性的任务的补充是反QSAR或分子生成问题，它涉及到生成具有感兴趣的特定特性的新型化合物。为了更好地理解逆向QSAR的挑战和由此采用的策略，有必要了解从分子搜索空间中阐明一个潜在候选药物的过程。对所有可能的分子进行系统分析以找到最佳治疗候选物是一项特别艰巨的任务，这主要是由于小分子领域内的大量搜索空间。在这个空间内，所有可能的候选分子估计在1020到1060个之间，这取决于搜索标准。最近在汇编小分子数据库 (如ZINC29和ChEMBL) 方面的进展，以及在分子表征、计算方法和处理能力方面的进展，推动了重大进展和一些研究，这些研究主要是利用基于生成神经网络的模型生成随机的类药物分子和靶点特定分子。

在一项工作中，作者从目前最先进的自然语言处理模型中获得灵感，这些模型是生成式预训练 (GPT) 模型，利用掩蔽的自我注意力来训练一个基于transformer的架构，以预测用于分子生成的SMILES字符串序列。他们表明，他们的模型能够高度准确地代表化学空间，在分子多样性、有效性和特定属性方面，如拓扑极地表面积 (TPSA) 和分配系数，如logP等等。另一种用于这类问题的方法是强化学习。Popova等人利用生成性和预测性神经网络来生成具有所需理化和生理特性的化学上可行的SMILES字符串。在这项研究中，作者使用SMILES字符串作为输入分子表征，其中生成模型和预测模型分别使用监督学习方法进行训练，然后在强化学习环境中进行联合训练，以生成针对特定理化性质 (如熔点或疏水性) 的新型分子，以及对Janus蛋白激酶2等靶点具有抑制活性的类似化合物。

除了生成新的治疗分子外，人们还必须考虑可行性限制，如建议化合物的"可合成性"，以确保产品在商业上可行。合成分析，即寻找合适的起始材料来生产一个特定的分子，是分子生成任务中的一个重要考虑因素。越来越多的工作现在已经促成了这样一种状态：现在有大量的数据库和搜索算法，不仅能够识别具有感兴趣的特性的可合成分子，而且还能建议新的、更有效的合成路线。基于模板的方法使用神经网络对可能的化学反应途径进行排序，这些途径以前是手工编码或从数据库中得出的。相反，无模板的方法对可能的反应途径不做任何假设，并使用基于图形或基于自然语言的方法来预测从市面上的起始材料到感兴趣的分子的反应途径。这些研究是确定和设计候选药物的重要步骤，这些候选药物不仅具有预期的药用特性，而且实际上是可以合成的。

候选药物选择的混合方法

除了分子特性预测和逆向分子生成外，在设计时对人体PK和PD反应的预测也是非常重要的，可以确定最可能的候选药物，提供足够的药物暴露，在临床上引起预期的药理作用。

实现这一目标的重要第一步是预测PK参数，如药物浓度与时间曲线下的面积 (AUC) 、清除率 (CL) 、分布容积 (Vd) 、半衰期 (t1/2) 、最大浓度 (Cmax) 、达到Cmax的时间 (tmax) 和生物利用率 (F)。这些都是来自药物浓度与时间曲线的变量，并给出了药物在体内行为的总体信息。到目前为止，有几项计算模型的研究，可以从化学结构中预测人类和动物的PK参数。

值得注意的是，Kosugi和Hosea表明，机器学习模型，特别是随机森林模型和径向基函数模型 (在测试的8个机器学习模型中) 对大鼠的CL预测提供了一个很好的替代传统方法 (如体外-体内推断)，有可能在药物发现管线的早期使用。尽管这些模型获得了相当的性能，但在大多数情况下，它们只限于预测一个或两个PK参数，更重要的是由于它们的黑箱性质，没有纳入对决定PK参数的基本ADME过程的理解。

为了解决机器学习模型的黑箱结构的局限性，目前正在研究使用机器学习和机理模型相结合的混合方法。特别是，这些方法将机器学习驱动的化合物相关信息，如ADME特性 (渗透性、pKA、亲脂性、内在代谢等) 与基于生理学的药代动力学 (PBPK) 模型框架相结合，这类框架使用一组常微分方程 (ODE) 和生理学参数，如血流、组织体积、血细胞比容和代谢酶表达，描述药物通过血液在体内不同组织区间的运输，以预测PK曲线。

Hosea和Jones证明，通过采用市面上的软件包，如ADMET predictor和Gastroplus，可以利用计算和体外信息来预测PK曲线。Antontsev等人使用了一种混合方法，将机器学习优化和机理建模结合起来，模拟化合物的血浆浓度曲线，在改变logP (亲脂性描述符) 的同时，能够高度准确地证明药物浓度时间曲线和组织分配系数。最后，Chen等人使用了一种混合方法来开发基于决策树的方法，该方法在训练数据集内纳入了机械学的PK/PD方法。这种方法在较小的已知化合物数据集上训练模型，以揭示ADME参数与较大的未知化合物样本的PKPD或PBPK模型的输出参数之间存在的关系。这些模型不仅在早期药物发现管线中具有特殊的效用，主要是由于在这个空间中存在少量的数据点，而且尽管数据有限，也可以帮助识别浓度-时间曲线和预测的ADME特性之间的关系。

除了从ADME特性预测PK曲线外，从临床前到临床阶段的PK和PD反应曲线的转化在选择候选药物时也起着重要作用。尽管传统的PK/PD方法已被证明在剂量预测方面是强大的，但由于缺乏数据和经过验证的从临床前模型到人体的转化方法，它们的实施仍然是一个挑战。这导致在早期药物发现中开发的模型必须包含许多假设，而这些假设的验证是具有挑战性的。因此，人们对利用机器学习技术来提供转化建模工作中使用的参数的更可靠的预测越来越感兴趣。

Lu等人开发了一个神经PK/PD模型，该模型预测的剂量反应曲线似乎是可推广的，适用于未经测试的给药方案。同样，Kosugi等人将一个机械性的神经药代动力学 (neuroPK) 模型与两种机器学习方法 (随机森林回归和高斯过程) 进行比较，以预测未结合分子的大脑-血浆的分配。他们的分析结论是，在化学适用性领域内与神经PK模型相比，机器学习模型表现更好，但在使用外部测试集时表现更差。这突出了机器学习模型的一个主要缺点，即当外推到所使用的训练数据集之外时，预测能力下降，特别是在基于树的方法 (如随机森林) 的情况。尽管如此，目前的机器学习方法在存在重大知识差距的情况下是非常有用的，如预测生物利用度，其值是不可预测和高度可变的，或者在个性化医疗领域，使用传统的群体PK方法来区分个体患者并决定个体给药策略可能具有挑战性。

结语

近年来，机器学习方法在早期药物发现中的应用越来越受到重视。分子表征、计算方法和计算能力的改进促进了这些方法的显著改善和更广泛的采用，特别是在早期药物发现的范围内。

在本文中，我们强调了这些领域的最新进展，重点是分子筛选和优化，以及候选药物的选择。越来越多的证据表明，利用QSAR模型进行ADMET预测、逆向分子生成和PK预测对于分子筛选和优化具有极其重要的意义。此外，机器学习模型的应用与机理模型一起可用于分子筛选和优化，最终有助于对候选药物进行排序和阐释。在这些领域应用机器学习的主要优势包括提高取样效率，减少实验负担和时间，以及改善安全和有效分子的识别。

尽管如此，该领域仍然存在挑战，包括那些与临床前和临床数据的可用性、代表性和统一性有关的挑战。数据标准化是该领域内鼓励药物发现和开发管线的不同阶段之间交叉合作的一个巨大机会。此外，我们需要确保改善药物开发各阶段之间的沟通，并采取循序渐进的方法，实时采取纠正措施，防止无效的分子进入临床开发的后期阶段。这些挑战需要得到解决，以促进这些建模框架在整个制药业的采用。

参考资料

Pillai N, Dasgupta A, Sudaskorn S, Fretland J, Mavroudis PD. Machine-learning-guided early drug discovery of small molecules. Drug Discov Today. 2022 Mar 29:S1359-6446(22)00127-1. doi: 10.1016/j.drudis.2022.03.017

--------- End ---------

机器学习神经网络人工智能学习方法编程算法

0 人点赞