Int J Mol Sci|CSatDTA:带自注意力机制的卷积模型预测药物-靶标亲和力

2022-11-16 16:28:18 浏览数 (2)

2022年7月14日,韩国全北国立大学电子与信息工程系的Kil To Chong研究团队和美国得克萨斯大学达拉斯分校生物科学系的Zhenyu Xuan研究团队在期刊International Journal of Molecular Sciences上合作发表一篇论文《CSatDTA: Prediction of Drug–Target Binding Affinity Using Convolution Model with Self-Attention》。本论文仅使用药物的SMILES和蛋白质的序列信息、借助注意力机制增强的卷积网络来预测药物-靶标亲和力,得到了较好的效果。作者还提供了一个Web服务器供研究者使用。

1 摘要

在药物开发的早期阶段,预测药物-靶标的亲和力 (Drug-Target Affinity, DTA) 是至关重要的。本文所提出的模型,即带自注意力机制的卷积模型 (a Convolution model with Self-attention) 预测药物-靶标亲和力 (CSatDTA),将基于卷积的自注意力机制应用于分子药物和靶标序列,以有效地预测药物-靶标亲和力(DTA),而不像以前的卷积方法那样,在这方面表现出明显的局限。卷积神经网络(CNN)只对某一特定区域的信息起作用,不包括全面的细节。另一方面,自注意力机制是一种相对较新的捕捉远程相互作用的技术,主要用于序列建模任务。

对比实验的结果表明,CSatDTA超过了以前基于序列或其他的方法。

2 材料与方法

2.1 材料

本文利用了公开的KiBA和Davis两个数据集,用于评估模型,数据的统计情况如表1所示。

表1 数据集的详情

2.2 药物和靶标的表示

作者用SMILES字符串序列表示药物,并将每个字符通过一个标签表示方法编码为唯一的整数,一共包括64个整数。SMILES序列长度限制为100个字符。

作者将蛋白用one-hot编码表示,并将蛋白序列长度通过截断或者补齐限制为1000个氨基酸残基。

作者还分别统计了两个数据集中药物和蛋白的序列长度,如图1所示。

图1 KiBA和Davis数据集的分析:(a)KiBA数据集中SMILES长度的分布,(b)KiBA数据集中蛋白序列长度的分布,(c)Davis数据集中SMILES长度的分布,(d)Davis数据集中蛋白序列长度的分布。

2.3 模型:CSatDTA

图2 本文所提模型CSatDTA的框架

仅基于CNN的模型不能捕获原子间远程交互的信息,本文利用自注意力技术来克服这个问题,具体的模型框架如图2所示。具体细节如下所述。

注意力机制

作者首先通过多头注意力机制来学习特征。对于输入特征维度为

,将第一、二维展平为

,得到单头注意力:

将单头注意力输出拼起来,再做线性变换:

为了与之前的维度相对应,作者亦将此维度重新调整为

注意力机制特征和卷积特征结合

作者将两者学到的表示拼接起来,成为注意力增强的卷积,即

之后,作者将学到的药物和蛋白表示,对应拼接起来,通过MLP,即可得到对应的预测值。

3 结果

3.1 超参数设置

表2总结了实验中所用的超参数。

表2 CSatDTA模型的参数

3.2 模型的比较

表3和表4分别展示了对比模型与CSatDTA在KiBA和Davis数据集上的表现。作者采用了三个指标来综合评价模型的表现,分别是均方差(Mean-Squared Error, MSE)、均方根差(Root-Mean-Squared Error, RMSE)和一致性指标(Concordance Index, CI)。可以看到,本文所提出的模型CSatDTA在两个数据集上均取得了较好的表现。

表3 模型在KiBA数据集上的预测表现

表4 模型在Davis数据集上的预测表现

作者还将CSatDTA模型对KiBA和Davis数据集上的预测值和真实值进行了可视化,分别展示在了图3和图4中。

图3 Davis数据集上的CSatDTA模型预测值与实际的结合亲和力值

图4 KiBA数据集上的CSatDTA模型预测值与实际的结合亲和力值

3.3 Web服务器

作者建立了web服务器实现CSatDTA模型,供研究者使用,截图如图5所示。该工具接受药物的SMILES和靶标的蛋白质序列作为输入,以计算亲和度得分,网址是:http://nsclbio.jbnu.ac.kr/tools/CSatDTA/。

图5 结合亲和力预测的Web服务器示例

4 讨论

本研究中,作者用自注意力机制增强的卷积网络建立回归模型。本文提出了一种新的2D相对自注意力回归技术,其允许使用序列数据训练具有竞争力的自注意力亲和力预测模型。作者证明了这种自注意力机制优于其他的注意力机制方案,并将其作为卷积算子的补充。此外,广泛的验证表明,注意力的增强系统性地改进了以前的卷积神经网络方法。

结果显示,具有注意力机制的深度学习方法明显优于基线方法或以前的方法。该研究通过提出一个独特的基于深度学习的模型,可以预测药物与靶标的亲和力,该模型仅简单地采用了蛋白质和药物的字符串表示,而做出了重大贡献。对于药物和靶标,作者取得了与基线方法相当或更好的结果,基线方法依赖于各种技术和策略来从原始序列数据中提取特性。本文的实验预测了已知药物和靶标之间新的相互作用。未来的研究将专注于为新药物预测现有的靶标。此外,作者打算将这一方法扩展到预测已知药物的新靶标的应用中去。

参考资料

Ghimire A, Tayara H, Xuan Z, Chong KT. CSatDTA: Prediction of Drug-Target Binding Affinity Using Convolution Model with Self-Attention. Int J Mol Sci. 2022 Jul 30;23(15):8453. doi: 10.3390/ijms23158453.

--------- End ---------

0 人点赞