BIBM | AttentionDTA -- 使用注意力模型预测药物-药靶结合亲和力

2021-03-03 15:54:48 浏览数 (1)

今天给大家带来的是发表在BIBM上的文章“AttentionDTA: prediction of drug–target binding affinity using attention model”。在本文中,作者提出了一种基于深度学习的端到端模型AttentionDTA,该模型将注意力机制与DTI的绑定亲和力相关联,以预测DTI的绑定亲和力。这项工作的新颖之处在于,在预测蛋白质的亲和力时,使用注意机制来考虑蛋白质中的哪些子序列对药物更重要,以及药物中的哪些子序列对蛋白质更重要。从而使模型的表现力更强。该模型利用一维卷积神经网络(1D-CNNs)提取药物和蛋白质的抽象信息,通过注意机制使药物和蛋白质的表征相互适应。

一、研究背景

药物-靶点相互作用(DTI)在药物发现和药物重新定位中发挥着重要作用。但是实验效率低、费用高、耗时长。因此,通过计算方法了解化合物与靶蛋白之间的相互作用是药物研究的重要任务。最近的研究表明,基于机器学习的方法可以从有限的相互作用数据中学习,并辅之以化合物和蛋白质之间的相似性信息,使预测化合物和蛋白质之间的大规模相互作用成为可能。

在生物信息学中,基于机器学习的药物-靶点相互作用(DTI)预测在药物发现的虚拟筛选中起着重要作用。DTI预测一直被认为是一个二元分类问题,它取决于两个分子的浓度、两个分子之间的相互作用以及其他因素。药物分子(如药物化合物)与靶分子(如受体或蛋白激酶)之间的亲和力反映了药物与特定靶点结合的紧密程度,并可通过测量来量化,这种测量比二元关系能反映更详细和具体的信息。

AttentionDTA模型将注意力机制与预测药物-药靶的结合亲和力相关联。这项工作的新颖之处在于,在预测蛋白质的亲和力时,应使用注意力机制来考虑蛋白质中的哪些子序列对药物更重要,而药物中的哪些子序列对蛋白质更重要。从而使模型的表示能力更强。该模型使用一维卷积神经网络(1D-CNN)提取药物和蛋白质的抽象信息,并通过注意力机制使药物和蛋白质的表示相互适应。

不同药物对蛋白质分子的高亲和力位点位于不同区域。通过注意力机制,我们可以获得药物和蛋白质子序列之间的注意力得分。子序列的向量表示根据注意力得分而增强或减弱。

二、模型与方法

2.1 数据集

作者在两个不同的数据集, Davis数据集和KIBA数据集上对提出的模型进行了评估,这两个数据集已经被广泛用作结合亲和力预测评估的基准。表1显示了这两个数据集的一些信息。

表1. 两个数据集的信息

2.2 模型介绍

图1.AttentionDTA框架图

模型的输入是蛋白质序列和药物的SMILES序列。对蛋白质序列和SMILES序列进行编码,需构建两个字典。如对药物构建字典{‘C’: 1, ‘N’: 2, ‘O’: 3, ‘=’: 4, ‘(’: 5, ‘)’: 6 etc.};则药物SMILES序列‘CC(C(=O)O)O’可以被表示为‘11515436363’。

药物和蛋白质序列的长度不定,为了降低计算复杂度并且保持足够的信息,设定药物SMILES序列的长度为100个字符,蛋白质序列的长度为1200个字符,大于该长度的序列将被截断,而小于该长度的序列用0填充。

Embedding layer将序列中的每个字符用k维密集向量表示。因此一个序列可以表示为

在新得到的序列表示上使用卷积操作

为一维卷积核,使用窗口中的h个字符的表示生成新的特征

经过cnn模块后产生的新的药物表示D∈RN×F和蛋白质表示P∈RM×F,N为药物序列的长度,M为蛋白质序列的长度,F为深度。在这里,作者设计了两种attention的计算方法—Attention1和Attention2。

Attention1:

其中α∈RN×M被称作注意力分数,用以假定代表药物子序列和蛋白质子序列之间的相互作用强度。

αd∈RN可以看作药物序列中每个位置对整个蛋白质表达的相关程度,而αp∈RM可以看作蛋白质的相应子序列与药物表征相关的程度。

Attention2:

Attention2与Attention1的唯一区别在于在处理蛋白质和药物表示的时候分别使用了两个不同的权重Wd和Wp。重复αd和αpF次,得到矩阵αd∈RN×F,αp∈RM×F,通过下式更新药物和蛋白质的表示

使用最大池化操作

经过最大池化后,rd和rp拼接起来输入到MLP,其loss为

Pi和Yi分别是预测得到的亲和力值和真实的亲和力值

三、实验结果

本文是一个回归问题,采用均方误差(MSE)和一致性指数(CI)作为评估指标。

为了更好地评估模型,还使用rm2指数

为了计算AUPR,通过选择合适的阈值将两个数据集转化为二进制数据集。对于Davis数据集采用7作为阈值,对于KIBA数据集采用12.1作为阈值。

表2和表3显示了AttentionDTA在这两个数据集上的MSE、CI、rm2、AUPR,所有的数据均为5折交叉验证结果的平均值

表2. KIBA数据集上的平均MSE、CI、rm2、AUPR

表3. Davis数据集上的平均MSE、CI、rm2、AUPR

四、总结

在本文中,作者提出了一种基于端到端的深度学习的模型——AttentionDTA模型,它结合了注意力机制来寻找药物子序列和蛋白质子序列之间的权重关系,以获得更有效的药物和蛋白质表示。作者使用两个独立的3层卷积模块分别学习药物和蛋白质序列的表示。然后使用一个注意力模块将药物表征与相应的蛋白质表征相关联,从而改善模型的表示。最后,亲和力预测任务由全连接神经网络完成。实验结果表明,该模型优于基线模型。

0 人点赞