作者 | 龙文韬 编辑 | 臧晨宇 校对 | 李仲深
这次给大家介绍Masashi Tsubaki教授的论文“Compound-protein Interaction Prediction with End-to-end Learning of Neural Networks for Graphs and Sequences”。关于化合物与蛋白质的相互作用 (Compound-Protein Interactions ,CPIs)预测的相关问题是当今药物研发的重要课题,能更高效准确的预测 CPI,对生物科研、化学实验和日常制药都会大有益处。Masashi Tsubaki教授现有模型处理不平衡数据集(即包含少量的正样本(即相互作用)和大量的负样本(即不相互作用)的数据集)的不良性能问题。基于此问题,Masashi Tsubaki教授将GNN(Graph Neural Network,图神经网络)和CNN(Convolutional Neural Network,卷积神经网络)引入 基础分类器模型并加入注意力机制调控,提出一种具有图和序列的端到端神经网络模型,通过端到端表示学习在平衡和不平衡数据集上实现更强大的性能,在某些方面了优化CPI的预测。
一、模型与方法
1.1 模型的数据集
此模型的数据集的构成为化合物信息、蛋白质信息和一个表示是否相互作用的布尔值。其中蛋白质的信息是用氨基酸一一对应的字母表示的字符串即氨基酸链,而化合物信息是由SMILES(Simplified Molecular Input Line Entry Specification,简化分子线性输入规范)表示。处理过后,人类数据集包含1,052个独特的化合物和852个独特的蛋白质之间的3,69个正相互作用;C.elegans数据集包含1,434个独特的化合物和2,504个独特的蛋白质之间的4,000个正相互作用。
1.2 模型框架介绍
作者将从使用RDKit预处理的SMILES获得的分子图和基于n-gram氨基酸分离的蛋白质序列分别输入到GNN和CNN。将使用GNN和CNN获得的化合物和蛋白质低维特征表示的向量连接起来,并输入到分类器中,以预测化合物和蛋白质是否相互作用。如图1。
图1. 模型框架简略图
1.3 用于分子图的GNN图神经网络
如图2所示。作者使用GNN获得分子图的低维向量表示,它有两个使用神经网络实现的函数,即转换函数和输出函数。转换函数在G中更新每个顶点(即分子中的原子)信息,考虑到它的相邻顶点和边(即分子中的化学键)。输出函数将顶点集映射到向量y。
(1)嵌入(图2中3.1):作者首先考虑使用r半径子图(由相邻顶点和半径r内的边从顶点诱导)来学习表示。作者将分子的r半径子图嵌入到低维实值向量空间中。
(2)转换(图2中3.2):作者在GNN中开发了两个转换函数,即顶点和边缘转换。其基本思想是通过(i)求和相邻嵌入和(ii)迭代过程在图中传播顶点和边的局部信息。
(3)输出(图2中3.3):作者使用顶点的隐藏向量的求和来获得输出(即分子向量表示)。
图2. GNN概述图
1.4 用于蛋白质的CNN卷积神经网络
(1)输入:基于n-gram氨基酸的嵌入。作者首先将蛋白质序列中的“单词”定义为n个氨基酸。作者设置了一个相对较小的n元数n=3,将蛋白质序列分割成一个重叠的3个氨基酸序列。
(2)在CNN中过滤。滤波器函数从输入向量中获得隐藏向量。作者利用分层应用函数得到一组隐藏向量:
(3)输出:蛋白质载体表示。从隐藏向量C的集合中获得的最终输出为C的平均值。
1.5 利用神经注意机制捕捉CPI位点
给定一个分子载体Y化合物分子和一组蛋白质C中子序列的隐藏向量,作者通过给子序列分配更大的权重来计算蛋白质中的哪个子序列对化合物分子更重要。作者使用带有神经注意机制的神经网络计算这种权重,灵活地模拟化合物和蛋白质之间的相互作用,而不是简单的求和。
图3. 总体框架图
三、实验结果
在CPI预测实验中,由于实际CPI数据集通常是不平衡的,作者使用不平衡数据集评估了比较方法的鲁棒性。在作者的实验中,阳性和阴性样本(阳性:阴性)的比例为1:1、1:3和1:5,而阳性样本的数量是固定的。该实验设置由Tabei和Yamanishi(2013)提出,并已用于其他研究。作者实验中使用的阴性样本是根据Liu等人获得的分数从顶级候选人中提取出来的。由于CPI预测是一个分类问题,因此平衡和不平衡数据集上的AUC、精度和召回来评估其性能。
关于人类数据集的主要结果:AUC、准确率和召回率。现有的方法使用基于化学指纹和普法姆域的特征。作者的方法利用神经网络和神经网络端到端学习获得特征。由下图可知,在不同负比率的情况下,大部分指标表明作者提出的模型效果较好。
图4. 人类数据集上的实验结果图
C.elegans数据集上的主要结果同样表明作者提出的模型效果较好。
图5. C.elegans数据集上的实验结果图
作者还通过实验与DUD-E数据集上的非机器学习方法和其他深度学习模型的比较。比较AutoDock Vina, Smina, AtomNet, 3D-CNN和作者提出的模型的AUC分数,可得知作者的模型只需要二维分子图和一维蛋白质序列作为输入,与DUD-E数据集上需要蛋白质和化合物三维信息的四种方法相比,却获得了更高的AUC分数,性能更优异。
图6. 与其他方法比较结果图
四、总结
为了准确预测CPI问题以促进药物研发过程,本文提出了结合GNN和CNN的端到端表征学习来预测CPI的模型。实验结果表明,在平衡和不平衡数据集上,相对低维和浅层神经网络具有优于现有各种方法的潜力,并且作者加入的注意机制提供了清晰的可视化,使实值向量更容易分析。作者的研究为端到端表示学习提供新的见解,引领构建生物信息学中的一般机器学习的潮流。
代码
https://github.com/xnuohz/gcndti
参考文献
https://vitalab.github.io/article/2019/07/25/cpi-gnn.html