Sci. Advances | 基于深度生成模型和on-chip合成的全新药设计

2021-06-24 21:50:21 浏览数 (2)

编译|王玉杰 审稿|杨慧丹

本文介绍来自苏黎世联邦理工学院、埃因霍温理工大学等机构的F Grisoni、BJH Huisman等人在Science子刊发表的文章“Combining generative artificial intelligence and on-chip synthesis for de novo drug design”。作者提出了基于深度学习和微流体平台进行自动化药物DMTA(design-make-test-analyze)循环的模块化框架,并从头设计了LXR(Liver X Receptor)激动剂,结果显示集成的从头设计平台在药物发现中自动化 DMTA 循环很有前景。

1

模块化DMTA平台简介

分子DMTA循环的自动化可以加速药物发现;机器合成、计算分子设计和合成规划等的新进展加速了药物发现过程的自动化,且助力了“绿色化学”;机器智能推理极大减少了分子设计和优化过程的个人偏见;“无规则”生成式深度学习在分子从头设计方面的前瞻性适用性已与批量合成相结合得到证明。

基于上述背景,作者开创性地将人工智能与微流体平台相结合,利用深度学习进行分子设计、微流控平台进行片上化学合成,其中深度生成模型会生成既有对选定的大分子靶标具有生物活性,又可在台式微流控合成平台上合成的化合物。作者从头设计了LXR激动剂,将人为干扰降至最低,成功合成了28个分子,12个分子在体外充分验证了LXR激活。作者提出的模块化框架具有加速DMTA周期的潜力,从而解决临床前药物发现过程的主要瓶颈之一。

如图1,自动化分子设计流程由三个模块组成:

(1)模块1:基于具有LSTM单元的循环神经网络的深度生成模型(图1A),充当了从头结构生成器。LSTM模型用于设计表示为SMILES字符串的新分子。

(2)模块2:虚拟反应过滤器(图1B)。新生成的分子根据其预测的合成路线进行过滤,使用SMARTS中指定的17个单步反应,模块选择了在微流控平台(图1C)内合成兼容的生成分子。

(3)模块3:一个微流控平台(图1C),旨在最大程度地减少优化反应条件和通过单步反应合成重点化合物库的人工劳动量。平台结合了所需试剂的自动检索与反应条件的优化、高效液相色谱-质谱(HPLC-MS)的在线反应产物监测以及反应混合物的收集。

图1 模块化分子设计流程。(A)基于LSTM的深度生成模型。(B)虚拟反应过滤器。(C)微流控平台。

2

实验结果及讨论

2.1 使用深度学习自动化分子从头设计

首先使用深度生成模型(图1A)对656070个市售分子的SMILES字符串进行了预训练,然后使用虚拟反应系统(图1B)预测出适合在微流控平台(图1C)进行片上合成的那部分。

预训练步骤使该模型能够捕捉到SMILES字符串的语法,如图2A,虚拟反应工具保留了更多的从头设计分子(P<0.001,Kruskal-Wallis测试),在每个微调epoch(如epoch 15-20,灰色矩形框,图2A)保留多达255±97个设计,结果突出了深度学习模型隐式学习所需分子特征的能力,而不需要明确的、基于规则的设计约束。

图2 (A)本文预训练策略(实线)与以前使用ChEMBL数据库的生物活性分子的训练(虚线)的分子保留量对比。(B) 应用虚拟反应过滤器之前和之后的从头设计的相对支架多样性对比。(C) 对保留的67个潜在合成的新设计进行分析。

在预训练后,用40个LXRα激动剂(未包括在预训练集中)的SMILES串对模型进行了微调,使新的SMILES串的生成偏向于已知LXRα激动剂的化学空间。没有包含在预训练和微调集中的生成分子被保留了下来,产生了3626个从头设计。

接着使用所选的17个虚拟反应方案集预测每个生成分子的逆合成路线(图1B),保留了可以分解成合适反应物的化合物。由图2B可知,应用虚拟反应过滤没有导致相对支架多样性的统计学意义上的下降(α=0.05,Wilcoxon检验),说明此方法适合于设计以反应为重点的化合物库。只要预测的反应产物与微流控系统兼容,预测的反应物就会从 PubChem中提取的 Sigma-Aldrich 目录中自动检索出来。如图2C,在PubChem、ChEMBL27等化合物数据库中对保留的67个分子进行检查,其中17种分子结构对应获得专利的或以其他方式已知的LXR 激动剂,37种分子是全新的,10种是可商购的,4 种在 PubChem 数据库中有描述但无法购买。最终作者选择了41种化合物进行合成,并购买了3种。

2.2 微流控技术辅助合成的"片上"初筛

使用计算建议的反应合成了41个选定的从头设计分子,在各自的HPLC-MS质量峰基础上,在微流控平台上共成功合成了25个化合物(图3A 中1至25,26-28为购买所得),成功率为61%。如图3B,在用HEK(human embryonic kidney) 293T细胞进行的杂交Gal4报告基因试验中,对化合物1-28进行了LXRα和LXRβ激活的初步测试,化合物1-17 的反应混合物显示出≥3倍的LXR激活;化合物6和15在初筛中表现出最强的反应;所有显示超过2倍LXR激活的化合物都有一个六氟-2-苯基-异丙酰基,表明这一分子特征与观察到的生物活性特别相关。最后,初步筛选中超过10倍LXRα激活的14个化合物被选作剂量反应曲线的全面表征,但因化合物7有细胞毒性故淘汰,又因化合物1新颖的原子支架也纳入后续研究。

图3 (A)合成了化合物1-25,外购了26-28。(B)化合物1至28激活LXRα和LXRβ,数字和颜色强度表示每种化合物对LXRα和LXRβ的激活倍数。

2.3 生物活性测定

将前文所选的14个化合物批量制备、纯化,并对LXRα和LXRβ进行了充分的表征,只有化合物2和3在后续筛选中未被证实具有活性,其余12个LXR调节剂的效力与初筛数据一致,其中合物6对LXRα显示出最高的效力,化合物15被确认为最有效的LXRβ激动剂。

如图4A为对选定的新设计的分析,结果证实了使用计算流程探索已知LXR激动剂定义的化学空间狭窄区域的能力,同时也为化合物优化提供了迄今尚未探索的分子核心。

图4 (A)选定的新设计与最相似的微调化合物比较,百分比值表示片段相似度。(B)化合物5(新设计,蓝色)和29(微调化合物,浅灰色)与LXRα和LXRβ的结合口袋的自动配体对接。

3

总结及展望

作者成功获得了可在微流体平台内合成并在LXR上具有所需活性的分子,集成的从头设计平台显示出在药物发现中自动化DMTA循环的前景。DMTA框架有望通过分子设计周期和数据驱动的化合物优化进行快速迭代,深度生成学习极大降低了流程中的人为干扰。此外,因为框架具有模块化特性,可以根据情况需要从头设计(通过替换计算分子生成器、过滤反应或合成技术等)。

作者提出的方法证明了实现闭环台式平台的可能性,未来的工作将涉及扩展微流体系统以实现多步合成,探索自动化批量合成作为替代方案,以及建立主动学习以提高过程效率。

参考资料

Grisoni, F., Huisman, B.J.H., Button, A.L., Moret, M., Atz, K., Merk, D., Schneider, G., 2021. Combining generative artificial intelligence and on-chip synthesis for de novo drug design. Science Advances 7, eabg3338..

doi:10.1126/sciadv.abg3338

0 人点赞