编译 | 程宁
本文介绍由Giulia Menichetti发表于Nature Reviews Physics上的研究工作。作者介绍了该团队在AI-Bind: Improving Binding Predictions for Novel Protein Targets and Ligands论文中提出的名为AI-Bind的新框架,该框架利用网络采样策略增加负样本来减少样本不均衡带来的影响,同时与当前其他主流预测模型采用蛋白质-配体网络作为输入不同,它在预处理阶段通过无监督训练得到化合物SMILE和蛋白质氨基酸序列的embedding表示,并将其作为神经网络的输入进行监督训练。通过实验证明了该框架下的模型相较于主流框架对于不包含在训练集的蛋白质和配体的预测也能表现出优越性能。
1
简介
准确预测化合物和蛋白质之间的相互作用关系是药物发现的关键,是识别新药和新治疗靶点、降低临床试验失败率及预测药物安全性的必要步骤。虽然分子动力学和对接模拟常被用于识别潜在的蛋白质-配体结合,但模拟时间复杂度较高及3D蛋白质结构的缺乏极大地限制了大规模测试的覆盖范围与可行性。一些基于机器学习、深度学习的模型避免现有方法的局限性,但是这些方法无法推广到从未出现过的结构。由于深度学习模型的预测能力部分依赖于样本的均衡程度,但是现实中不同蛋白质和配体相关的正负样本往往不均衡,这种不均衡会导致模型在预测新的蛋白质与配体时,性能会大幅下降,这是因为模型只从蛋白质-配体相互作用网络学习了相关的结合模式,而忽略了节点本身的数据,如配体的化学结构和蛋白质的氨基酸序列。
为改进上述缺陷,本文作者尝试将配体的化合物结构和蛋白质氨基酸序列直接作为输入,并通过网络采样策略生成负样本来减少样本不均衡带来的问题。该框架在预处理阶段通过无监督训练得到化合物SMILE和蛋白质氨基酸序列的embedding表示,并将其作为神经网络模型的输入进行监督训练。作者的贡献如下:
- 提出了一种新的预测框架AI-Bind,该框架能够与现有的深度学习模型兼容。
- 利用网络采样策略生成了负样本,降低了数据不均衡带来的影响。
- 将化合物结构和蛋白质氨基酸序列直接作为输入,大大提高了模型在新蛋白质和配体预测的能力。
- 该框架不仅可以预测药物分子与蛋白质之间的结合情况,而且可以通过更大的化学库如NCFD或者PubChem进行扩展。
- 通过对新冠病毒蛋白质与配体的预测,进一步验证了模型在新蛋白质和配体预测的性能,并且提供了一些与新冠治疗相关的潜在配体。
- AI-Bind还可以在缺乏3d蛋白质结构的情况下,预测氨基酸序列上可能的活性结合点位,指示潜在的蛋白质-配体结合位置。
2
方法
2.1 AI-Bind框架
图1为AI-Bind的总体框架。首先通过Mol2Vec,ProtVec,VAE embedding和Siamese embedding获取经过网络采样策略预处理过的化合物结构和蛋白质氨基酸序列的embedding表示,将其作为神经网络的输入,然后从预测结果中选取前N对,并通过自动对接模拟对结果进行验证,最后得到能够与蛋白质相结合的配体。
图1 AI-Bind的总体框架
2.2 数据准备
正样本 选取DrugBank 数据库的药物靶点结合信息作为正样本,并在BindingDB中使用InChIKeys搜索,获得了4330个与DrugBank的药物相关的结合信息,共收集了28188条药物-靶点结合数据。并通过NCFD数据库确定了天然/食物化合物,使用InChIKeys查询BindingDB、DTC,总共获得了1555个化合物-蛋白质样本。
负样本 为均衡训练数据,统计DrugBank、BindingDB和DTC的正样本,共5104个靶点和8111个配体,其中485个是天然化合物。由于蛋白质-配体的最短路径距离越长,动力学常数越高。选取最短路径距离≥ 7作为阈值,随机选择相隔≥ 7的蛋白质-配体对作为负样本,最后,去除所有只有正样本或负样本的节点,得到网络衍生的负样本。
2.3 VecNet、VAENet与Siamese Model
VecNet的输入是经过Mol2Vec和ProtVec预先训练的配体和蛋白质embedding表示,两者分别为300和100维。上述两个预训练过程是在1990万个化合物和546790个蛋白质上进行的无监督训练,且独立于之后的预测过程。
VAENet使用变分自动编码器,该自动编码器通过最大限度地减少从潜在表征重构分子时的信息丢失来创建embedding信息。
Siamese模型使用one shot learning将配体和蛋白质嵌入到同一空间中。同时构建了的数据,训练该模型以最大化非结合对之间的欧几里得距离,同时最小化结合对之间的欧几里得距离。
图2 VecNet、VAENet 和 Siamese 模型的深度架构
3
实验
3.1 现有模型不足的验证
图3显示了现有主流模型DeepPurpose和Configuration仅通过网络中的标签拓扑结构来预测结合概率的网络配置模型在相同数据集上的预测结果。结果可以看出仅依赖于标签的网络配置模型与深度学习模型表现一样好,这证实了蛋白质-配体相互作用网络的拓扑结构对预测有一定影响,而深度学习模型在训练时,往往忽略了节点本身的结构数据。
图3 DeepPurpose和 Configuration模型对比
图4显示了上述两种模型在三种不同情况下的预测性能:(1)训练集包含测试集的蛋白质和配体;(2)训练集中仅包含测试集的配体;(3)训练集不包含测试集的蛋白质和配体。图中可以看出两种模型在前两种场景下性能依旧良好,但在第三种场景下,对于新的蛋白质和配体数据,模型的预测性能都有所下降。这说明现有模型对于新出现的蛋白质和配体数据,预测能力会大幅下降。
图4 两种模型不同情况下的预测性能
表1显示了打乱训练集中的SMILE和蛋白质的氨基酸序列,同时不改变每个节点的正负标注情况下的DeepPurpose的预测性能。表中可以看出打乱数据前后,模型的性能并无明显变化,进一步说明模型的预测能力与节点本身的数据无关。
表1 打乱数据后的模型预测性能
3.2 AI-Bind模型性能验证
图5展示了经过网络采样后的均衡样本训练下,三种模型的性能。图中可以看出,由于消除了样本的不均衡,DeepPurpose对于新蛋白质和配体的结合预测性能有所提升,而AI-Bind的VecNet在新蛋白质和配体的结合预测方面性能最佳。
图5 均衡样本下三种模型的预测性能
图6展示了DrugBank中药物分子与食品数据库(NCFD)中的天然化合物分别作为输入的AI-Bind性能,可以看出天然化合物的结合预测性能与药物分子的预测性能相当,这说明AI-Bind能够推广到一些具有更为复杂结构的化合物与蛋白质结合预测中。
图6 药物分子和天然化合物为输入的预测结果
3.3 AI-Bind在新冠肺炎蛋白上的预测性能
图7显示了以新型冠状病毒蛋白质和人类蛋白质中能和新冠病毒蛋白相结合的作为输入的情况下,预测得到的混淆矩阵。图中可以看出模型预测F1分数为0.82,进一步说明AI-Bind在面对新蛋白质和配体是也能表现出较为良好的性能。
图7 新冠蛋白上的预测性能
4
总结
在这项工作中,作者先利用网络采样策略增加负样本来减少样本不均衡,然后通过无监督训练获得化合物和蛋白质的embedding表示,并将其作为神经网络的输入。实验证明本文提出的框架对于新蛋白质和配体也具有良好的预测性能,并证明了该框架还可进一步推广到预测天然化合物和蛋白质结合情况之中,最后说明了该框架还可在缺乏3d蛋白质结构的情况下,预测氨基酸序列上可能的结合点位。
参考资料
Menichetti, G. An AI pipeline to investigate the binding properties of poorly annotated molecules. Nat Rev Phys (2022).
https://doi.org/10.1038/s42254-022-00471-1