今天给大家介绍的是nature biotechnology上有关分子生成的文章"Deep learning enables rapid identification of potent DDR1 kinase inhibitors"。文章发表于2019年9月。
英矽智能(Insilico Medicine)开发了一个深度生成模型,生成张量强化学习(GENTRL),用于从头进行小分子设计。GENTRL优化了合成的可行性、新颖性和生物活性。作者使用GENTRL在21天内发现了盘状蛋白结构域受体1(DDR1)的有效抑制剂,这是一种与纤维化和其他疾病有关的激酶靶点。最终发现四种化合物在生化分析中具有活性,其中两种化合物在基于细胞的分析中得到验证。同时,他们还测试了一种主要候选药物,并证明其在小鼠体内有良好的药代动力学。
1.研究背景
药物发现是极其耗费资源的,通常需要10-20年的时间,费用从5亿美元到26亿美元不等。人工智能有望通过促进化合物的快速识别来加速这一过程并降低成本。深度生成模型是使用神经网络产生新数据对象的机器学习技术。这些技术可以生成具有特定属性的对象,例如对给定靶标具有活性,这使得它们非常适合用于发现候选药物。然而,很少有药物生成设计的实例获得用于包括体外或体内研究的实验验证。
盘状结构域受体 1 (DDR1) 是一种胶原激活的促炎受体酪氨酸激酶,在上皮细胞中表达并参与纤维化。然而,尚不清楚 DDR1 是否直接调节纤维化过程,如肌成纤维细胞活化和胶原沉积。自2013年以来,至少有八种化学型态作为选择性 DDR1(或 DDR1 和 DDR2)小分子抑制剂被发表。最近,在 Alport 综合征的 Col4a3–/– 小鼠模型中,一系列高选择性、基于螺环二氢吲哚的 DDR1 抑制剂被证明对肾纤维化具有潜在的治疗功效。因此,更广泛多样的 DDR1 抑制剂将对治疗进一步的帮助。
作者开发的生成张量强化学习 (GENTRL)是一种用于从头药物设计的机器学习方法。GENTRL 优先考虑化合物的合成可行性、对于给定生物靶标的有效性,以及与文献和专利领域中其他分子的区别。在这项工作中,GENTRL 用于快速设计对 DDR1 激酶有活性的新型化合物。
2.模型
为了创建 GENTRL,作者将强化学习、变分推理和张量分解组合成一个生成式两步机器学习算法(图 1)。首先,作者将化学空间(一组离散分子图)映射到一个50维连续空间内,参数化张量训练格式中学习流形的结构以使用部分已知的属性。同时作者基于自动编码器的模型将结构空间压缩到一个分布上,该分布将高维晶格中的潜在空间参数化,其节点中具有指数大量的多维高斯分布。这种参数化将潜在代码和属性联系起来,并在没有显式输入的情况下处理缺失值。在第二步中,作者通过强化学习探索了这个空间,以发现新的化合物。
GENTRL 使用三种不同的自组织映射神经网络 (SOMs) 作为奖励函数:趋势SOM、一般激酶SOM 和特定激酶SOM。趋势 SOM 是一种基于 Kohonen 的奖励函数,它使用专利中公开的结构的申请优先权日期对复合新颖性进行评分, 富含新型化学实体的神经元将会奖励生成模型。一般激酶 SOM 是一种可将激酶抑制剂与其他类别的分子区分开来的Kohonen图。特定激酶 SOM 会将 DDR1 抑制剂从激酶靶向分子的总池中分离出来。GENTRL 将会按顺序使用这三个 SOMs 对它生成的结构进行优先级排序。
图1:GENTRL模型
3.数据集
作者使用了六个数据集来构建模型:(1) 来自 ZINC 数据集的大量分子,(2) 已知的 DDR1 激酶抑制剂,(3) 常见激酶抑制剂(阳性数据集),(4) 作用于非激酶靶标的分子(阴性数据集),(5)制药公司已发表的生物活性分子的专利数据,以及(6)DDR1 抑制剂的三维结构(表 1)。数据集经过预处理以排除总体异常值并减少包含相似结构的化合物的数量。
表 1:用于 AI 驱动的 DRR1 抑制剂生成和药效团建模的数据集。
预训练数据集
对于预训练过程,作者通过使用来自 ZINC 数据库中的 Clean Leads集和一个专有数据库构建了一个结构数据集,该数据集已经去除了包含除碳、氮、氧、硫、氟、氯、溴和氢以外的原子的结构。并且使用常规药物化学过滤器来排除具有潜在毒性和反应性基团的化合物。
激酶抑制剂和“阴性”数据集
使用 Integrity 和 ChEMBL 数据库中的可用数据构建了能主动抑制和不抑制各种激酶的分子数据。
按优先权日期排列的专利记录中的化合物
Integrity 数据库用于收集前十名制药公司从 1950 年至今的专利记录中声称为新原料药的结构数据集。最终数据集包含 17,000 条记录。
4.结果和讨论
作者使用过滤后的 ZINC 数据库(数据集 1)训练 GENTRL(预训练),然后使用 DDR1 和常见激酶抑制剂数据集(数据集 2 和数据集 3)继续训练。紧接着作者使用前面描述的奖励机制启动了强化学习阶段。他们获得了 30,000 个结构的初始输出,然后自动过滤去除带有结构警报或反应基团的分子,并且通过聚类和多样性排序减少了产生的化学空间(表 2)。然后使用(1)通用和特定激酶 SOM 和(2)基于与 DDR1 复合的化合物的晶体结构的药效团建模评估结构(图 2 和 3)。基于在前两个步骤(步骤 6 和 7)中计算的分子描述符和均方根偏差 (RMSD) 的值,他们使用 Sammon 映射来评估剩余结构的分布。
表2: 优先级过程
图2: (a) 趋势SOM 的表示,这是一种基于 Kohonen 的奖励函数,通过主要制药公司专利中公开的先导化合物的申请优先权日期,它将“新”化合物与“旧”化合物区分开来。(b) 富含激酶抑制剂的神经元的表示。( c )由富含对激酶没有实验活性的分子的神经元的表示。(d) 基于 PF(圆圈)选择神经元,随后用于奖励。在特定激酶 SOM(未描绘)中,作者观察到 DDR1 抑制剂分布在地形近端神经元的集合中。最后,他们选择了那些位于 DDR1 相关神经元中的结构。
图3:药效基因假说。(a) 三中心药效团假说:Acc - 氢键受体 (r = 2Å),Hyd|Aro - 疏水或芳香中心 (r = 2Å),Hyd - 疏水中心 (r = 2Å)。(b) 四中心 药效团假说:Acc - 氢键受体 (r = 2Å), Hyd|Aro - 疏水或芳香中心 (r = 2Å), Hyd - 疏水中心 (r = 2Å), Acc|Specific - 氢键受体或具有相似空间几何形状的片段(例如双键或三键、平面循环)(r = 1.7Å)。未描绘的距离与 三中心药效团的距离相同。(c) 五中心药效团假说包含与上面 b 中突出显示的相同点,并具有额外的疏水特征。未描绘的距离与以 3 为中心和以 4 为中心的药效团相同。黄色:报道的小分子 DDR1 抑制剂。
为了将重点缩小到较小的一组分子以进行分析,他们随机选择了 40 个结构,这些结构均匀地覆盖了由此产生的化学空间和 RMSD 值的分布。在 40 个选定的结构中,39 个不存在于任何已发表的专利或申请的范围内, 并选择其中六个用实验验证了其可合成性。值得注意的是,他们的方法产生了几个重要的潜在生物等排置换和拓扑修饰的例子(图 4b)。
图4:GENTRL 模型设计、工作流程和纳摩尔命中率。a,使用 GENTRL 设计主要候选药物的一般工作流程和时间表。b,与亲本 DDR1 激酶抑制剂相比,生成的结构的代表性示例。c, 生成的对人 DDR1 激酶具有最高抑制活性的化合物。
到选择目标后的第23天,他们已经确定了六个主要候选分子,到了第35天,这些分子已成功地合成出来了(图 4c)。随后在酶促激酶测定中测试了它们的体外抑制活性。化合物1和2对 DDR1的抑制活性较为强烈(半数最大抑制浓度 (IC50) 值分别为 10 和 21 nM),化合物3和4表现出了中等效力(IC50值分别为 1 μM 和 278 nM),化合物5和6并未表现出抑制DDR1的活性。化合物1和2对 DDR1 的选择性均超过 DDR2(图 4c)。此外,与 44 种不同激酶相比,化合物 1 具有相对较高的选择性指数。
然后,作者还进行了体外微粒体稳定性研究,以表现化合物 1 和 2 在人、大鼠、小鼠和狗肝微粒体中的代谢稳定性。他们发现化合物 1 和 2 的半衰期和清除率值与常规使用的对照分子相似或更有利。同时还发现化合物 2 在缓冲条件下非常稳定。两种化合物都没有强烈抑制细胞色素 P450,并且两种化合物都显示出良好的理化特性,包括它们满足Lipinski规则。
最后,作者在啮齿动物模型中测试了化合物 1。化合物 1 通过静脉注射 (i.v.) (10 mg kg-1) 和口服 (p.o., 15 mg kg-1) 递送给小鼠。两次给药的半衰期相似,约为 3.5 小时。静脉注射在初次给药时血浆浓度的峰值为2,357 ng ml-1,而口服给药在给药后1小时达到较低的峰值,为 266 ng ml-1。
作者认为尽管微粒体稳定性和药代动力学特性合理,但此处鉴定的化合物可能需要在选择性、特异性和其他药物化学特性方面进一步优化。
5.结论
在这项工作中,作者在不到 2 个月的时间内设计、合成和实验验证了靶标为 DDR1 激酶的分子,并且成本仅为传统药物发现方法的一小部分。这说明了这个深度生成模型在成功、快速设计合成上可行、对感兴趣的靶标具有活性并在现有知识产权方面具有潜在创新性的化合物方面的效用。作者预计这项技术将得到进一步改进,作为识别候选药物的有用工具。
参考资料
Alex Zhavoronkov , Y an A. Ivanenkov, Alex Aliper, Mark S. Veselov, Vladimir A. Aladinskiy, Anastasiya V. Aladinskaya, Victor A. T erentiev, Daniil A. Polykovskiy, Maksim D. Kuznetsov, Arip Asadulaev, Yury Volkov, Artem Zholus, Rim R. Shayakhmetov, Alexander Zhebrak, Lidiya I. Minaeva, Bogdan A. Zagribelnyy, Lennart H. Lee , Richard Soll, David Madge, Li Xing, T ao Guo and Alán Aspuru-Guzik, Nature biotechnology, 2019, 37(9): 1038-1040,DOI:10.1038/s41587-019-0224-x.
----------- End -----------