耐药病原体的出现是对人类健康的巨大挑战。抗菌肽(Antimicrobial peptides,ABP)又称宿主防御肽,是机体免疫防御系统的重要组成部分,表现出多方面的作用机制,对细菌、真菌、病毒和其他病原体具有广谱抗菌活性。因此,它们已成为传统抗菌药物的潜在替代品。然而,识别ABP需要复杂的设计、漫长的筛选周期和严格的条件,这使得大规模筛选非常具有挑战性。
计算机辅助方法是识别和设计ABP的关键方法,因为它们有可能在临床试验之前进行大规模初步筛选。在过去的几十年里,研究者们已经开发了许多基于机器学习的优秀方法来识别抗菌肽。然而,目前的大多数方法在识别抗菌肽时,仍依赖于手工选取的特征,并且未充分利用结构信息,这可能会影响预测性能。
2024年8月9日,南开大学邵学广教授、蔡文生教授团队在Bioinformatics上发表文章PGAT-ABPp: Harnessing Protein Language Models and Graph Attention Networks for Antibacterial Peptide Identification with Remarkable Accuracy。
作者提出了一种新的深度学习方法PGAT-ABPp,利用AlphaFold2预测的结构和预训练的蛋白质语言模型ProtT5-XL-U50 (ProtT5)来构建图,然后采用图注意力网络(GAT)从图中学习全局判别特征,空间信息的引入进一步提高了模型的预测性能。实验结果表明,PGAT-ABPp的性能超越了现有模型。
如图1所示,PGAT-ABPp从预测的结构中提取空间信息,并将其与ProtT5提取的节点嵌入结合起来构建图。在图中,节点表示残差信息,边表示残差之间的位置关系。随后,使用GAT来学习和更新节点表示,然后由读出层进行处理。最后,利用输出层判断输入是否为ABP。
图1 PGAT-ABPp结构图
本文用于预训练和微调模型的主数据集(S),以及独立测试数据集(SIN),均来自先前的Deep-ABPpred工作。具有抗菌活性的肽被认为是ABP,而不管其目标细菌是什么,而没有已知抗菌活性的肽被标记为非ABP。S包括1635个ABP和1485个非ABP,而SIN包括4017个ABP和5799个ABP。此外,S和SIN之间没有重叠。由于在相同的实验条件下,并非所有序列都具有确定的3D结构,因此作者使用AlphaFold2来预测数据集中所有序列的结构。
在数据集中,ABP中高螺旋含量的肽的比例明显高于非ABP,而低螺旋含量的肽的比例相应低于非ABP。这些ABP和非ABP之间的结构差异需要被捕获并用于区分ABP和非ABP。进一步可以看出,数据集中的ABP具有更高的净正电荷,而非ABP则没有。从序列长度来看,ABP主要分布在15-25之间,而非ABPs主要分布在15-30之间。此外,ABP富含赖氨酸和精氨酸等碱性氨基酸,以及丙氨酸和亮氨酸等疏水氨基酸,丰度明显高于非ABP。这种富集归因于ABP需要携带正电荷,以便在初始结合时与细菌细胞膜形成强静电相互作用,通过疏水残基与脂质相互作用破坏细菌细胞膜。
作者选择ProtT5-XL-U50 (ProtT5)作为特征提取器来获得节点嵌入,因为它能够有效地捕获氨基酸和蛋白质结构类别的生物物理特征,这是本文想要用于区分ABP和非ABP的属性。此外,ProtT5特别适合小的蛋白质家族,使其成为ABP识别任务的理想选择。ProtT5采用具有大小为1024的隐藏层的24层Transformer架构,在Big Fantastic Database (BFD)数据库上进行预训练,随后在UniRef50上进行微调。ProtT5利用其编码器为每个输入标记生成上下文感知嵌入。
从AlphaFold2预测的结构中,可以得到所有原子的笛卡尔坐标来创建接触图。在本研究中,使用接触图中Cα-Cα原子之间的距离来表示空间信息。在这种情况下,如果两个残基对应的Cα原子之间的距离在一定范围内,则认为它们是接触的。接着,图注意力网络用于从上面构建的图中学习结构信息和图级信息。图注意力层的输入是一组节点特征,在每个节点上执行自注意力机制,以计算代表不同节点对之间的重要性的注意力系数。使用归一化的注意力系数计算相应特征的线性组合,以获得每个节点的输出特征。
为了稳定学习过程,增强模型的泛化能力,模型采用了多头注意机制,将多个头的特征连接起来,得到输出的特征表示,以进一步处理节点特征,提供图内节点上下文的全面视图。随后,利用全局平均池化计算多头输出的平均值,得到固定长度的图级特征向量。读取特征向量输入到稠密层,最后通过s型激活函数将输出映射到0-1的范围内,以识别输入肽的类别。预测值大于0.5的肽被认为是ABP,否则为非ABP。
作者将PGAT-ABPp与一些具有代表性的方法进行了比较,如表1所示。在本研究中,使用六个指标来评估模型的性能:准确度(Acc),精确度(Pr),特异度(Sp),ROC曲线下面积(AUC), F1评分(Fs)和马修斯相关系数(MCC),其数值越高越好。表中加粗表示最好的结果,可见PGAT-ABPp相对于现有方法具有显著提升。
表1 与其他方法对比
作者设计了消融实验来验证模型设计的有效性。在本文中,消融实验用以评估ProtT5的有效性和整合结构信息的意义。先前的研究将特征编码方法分为两大类:肽水平特征和氨基酸水平特征。为了评估不同类型节点特征对结果的影响,作者选择独热(one-hot)编码方法获得基于序列的特征,选择word2vec方法获得氨基酸级特征。据此,模型分别命名为Onehot-GAT和Word2vec-GAT。鉴于CNN在蛋白质迁移学习的下游任务中的优越性能,使用ProtT5-CNN与ProtT5-GAT进行性能比较,旨在观察结构信息的重要性。表2所示的结果显示了ProtT5-GAT在各个指标上的优越性能。与单热编码和word2vec相比,使用ProtT5作为特征提取器时,模型的性能显著提高,表明ProtT5在表示肽序列方面具有显著优势。此外,与ProtT5-CNN相比,ProtT5-GAT的性能也提高了。
表2 消融实验
作者还进行了案例分析。为了探索模型学习生物信息的能力,作者基于注意权值将模型特征的重要性可视化。具体来说,作者选择了四种已知具有抗菌活性的肽,用于可视化权重:
PGLa (GMASKAGAIAGKIAKVALKAL);
Hepcidin-25 (DTHFPICIFCCGCCHRSKCGMCCKT);
HNP-1 (ACYCRIPACIAGERRYGTCIYQGRLWAFCC);
Magainin-2 (GIGKFLHSAKKFGKAFVGEIMNS)
PGLa在水溶液中呈非结构化形式,但在膜中形成两亲性螺旋。之前的研究通过分子动力学模拟发现,PGLa与DMPC/DMPG双分子层之间最强的相互作用来自于Lys5与DMPG磷的接触,PGLa与双分子层结合的自由能主要取决于正电荷的解离和静电PGLa与脂质相互作用之间的平衡。此外,C端螺旋进行旋转以维持赖氨酸和阴离子脂质磷之间的接触。这些关键残基被赋予了更高的关注权重,可以在图2A中的位置4、11、14和18找到。另外,位置7和15分别对应于疏水氨基酸、丙氨酸和缬氨酸。鉴定的残留物共同对PGLa的抗菌性能有重要贡献。
对其他三个案例的分析类似。在Hepcidin-25中,图2B中位于位置14-19的残基表现出更高的权重,这可能归因于它们位于β折叠的旋转区域。HNP-1的热图分析(图2C)显示,具有较高同源性的重要n端和位点得到了更高的权重,并且识别出与肽的两性性质相关的重要位点,包括带正电的和疏水残基。本文的模型可以识别Magainin-2中所有带正电的氨基酸(图2D中的3、6、9、10和13位)。此外,位于0和2位的甘氨酸以及位于7位的丝氨酸对维持抗菌构象很重要,在Magainin-2中也被赋予了更高的注意力权重。
图2 案例分析
本文提出了PGAT-ABPp模型,利用蛋白质语言模型和图注意力网络进行抗菌肽识别。这是一种鲁棒、准确的ABP识别模型。鉴于ABP的识别是后续设计或湿实验的初步筛选,获得更高的准确性不仅是评估模型性能的指标,而且代表了进一步设计的能力,这种能力对设计实验策略和指导未来研究方向具有重要意义。
尽管PGAT-ABPp显示出优于其他方法的优势,但它仍然可以在几个方面进行扩展。首先,在本文的研究中,作者利用ProtT5提取肽嵌入,这表明蛋白质语言模型的选择会影响性能,并且可能是特定适应于某个任务的。鉴于大语言模型的快速发展,未来还将出现更专业的蛋白质语言模型,有望进一步提高模型的性能。其次,本研究中采用了预测结构并将所得的结构信息作为输入,来预测ABP的方法,这种方法尽管取得了更好的结果,但也比直接使用序列消耗了更多的时间和计算成本。此外,值得注意的是,水中的ABP的结构可能与膜中的不一样,因此使用膜中模拟的结构进行鉴定可能更准确,尽管获得这种结构存在重大挑战。总之,开发高精度的ABP识别模型仍然是一项重要的任务。PGAT-ABPp的优异性能使其成为后续发现和设计ABP的有前途的工具。
参考文献:
Hao et al. PGAT-ABPp: Harnessing Protein Language Models and Graph Attention Networks for Antibacterial Peptide Identification with Remarkable Accuracy. Bioinformatics. 2024
--------- End ---------