南开大学提出PGAT-ABPp模型，通过蛋白质语言模型和图注意力网络识别抗菌肽

耐药病原体的出现是对人类健康的巨大挑战。抗菌肽(Antimicrobial peptides，ABP)又称宿主防御肽，是机体免疫防御系统的重要组成部分，表现出多方面的作用机制，对细菌、真菌、病毒和其他病原体具有广谱抗菌活性。因此，它们已成为传统抗菌药物的潜在替代品。然而，识别ABP需要复杂的设计、漫长的筛选周期和严格的条件，这使得大规模筛选非常具有挑战性。

计算机辅助方法是识别和设计ABP的关键方法，因为它们有可能在临床试验之前进行大规模初步筛选。在过去的几十年里，研究者们已经开发了许多基于机器学习的优秀方法来识别抗菌肽。然而，目前的大多数方法在识别抗菌肽时，仍依赖于手工选取的特征，并且未充分利用结构信息，这可能会影响预测性能。

2024年8月9日，南开大学邵学广教授、蔡文生教授团队在Bioinformatics上发表文章PGAT-ABPp: Harnessing Protein Language Models and Graph Attention Networks for Antibacterial Peptide Identification with Remarkable Accuracy。

作者提出了一种新的深度学习方法PGAT-ABPp，利用AlphaFold2预测的结构和预训练的蛋白质语言模型ProtT5-XL-U50 (ProtT5)来构建图，然后采用图注意力网络(GAT)从图中学习全局判别特征，空间信息的引入进一步提高了模型的预测性能。实验结果表明，PGAT-ABPp的性能超越了现有模型。

如图1所示，PGAT-ABPp从预测的结构中提取空间信息，并将其与ProtT5提取的节点嵌入结合起来构建图。在图中，节点表示残差信息，边表示残差之间的位置关系。随后，使用GAT来学习和更新节点表示，然后由读出层进行处理。最后，利用输出层判断输入是否为ABP。

图1 PGAT-ABPp结构图

本文用于预训练和微调模型的主数据集(S)，以及独立测试数据集(SIN)，均来自先前的Deep-ABPpred工作。具有抗菌活性的肽被认为是ABP，而不管其目标细菌是什么，而没有已知抗菌活性的肽被标记为非ABP。S包括1635个ABP和1485个非ABP，而SIN包括4017个ABP和5799个ABP。此外，S和SIN之间没有重叠。由于在相同的实验条件下，并非所有序列都具有确定的3D结构，因此作者使用AlphaFold2来预测数据集中所有序列的结构。

在数据集中，ABP中高螺旋含量的肽的比例明显高于非ABP，而低螺旋含量的肽的比例相应低于非ABP。这些ABP和非ABP之间的结构差异需要被捕获并用于区分ABP和非ABP。进一步可以看出，数据集中的ABP具有更高的净正电荷，而非ABP则没有。从序列长度来看，ABP主要分布在15-25之间，而非ABPs主要分布在15-30之间。此外，ABP富含赖氨酸和精氨酸等碱性氨基酸，以及丙氨酸和亮氨酸等疏水氨基酸，丰度明显高于非ABP。这种富集归因于ABP需要携带正电荷，以便在初始结合时与细菌细胞膜形成强静电相互作用，通过疏水残基与脂质相互作用破坏细菌细胞膜。

作者选择ProtT5-XL-U50 (ProtT5)作为特征提取器来获得节点嵌入，因为它能够有效地捕获氨基酸和蛋白质结构类别的生物物理特征，这是本文想要用于区分ABP和非ABP的属性。此外，ProtT5特别适合小的蛋白质家族，使其成为ABP识别任务的理想选择。ProtT5采用具有大小为1024的隐藏层的24层Transformer架构，在Big Fantastic Database (BFD)数据库上进行预训练，随后在UniRef50上进行微调。ProtT5利用其编码器为每个输入标记生成上下文感知嵌入。

从AlphaFold2预测的结构中，可以得到所有原子的笛卡尔坐标来创建接触图。在本研究中，使用接触图中Cα-Cα原子之间的距离来表示空间信息。在这种情况下，如果两个残基对应的Cα原子之间的距离在一定范围内，则认为它们是接触的。接着，图注意力网络用于从上面构建的图中学习结构信息和图级信息。图注意力层的输入是一组节点特征，在每个节点上执行自注意力机制，以计算代表不同节点对之间的重要性的注意力系数。使用归一化的注意力系数计算相应特征的线性组合，以获得每个节点的输出特征。

为了稳定学习过程，增强模型的泛化能力，模型采用了多头注意机制，将多个头的特征连接起来，得到输出的特征表示，以进一步处理节点特征，提供图内节点上下文的全面视图。随后，利用全局平均池化计算多头输出的平均值，得到固定长度的图级特征向量。读取特征向量输入到稠密层，最后通过s型激活函数将输出映射到0-1的范围内，以识别输入肽的类别。预测值大于0.5的肽被认为是ABP，否则为非ABP。

作者将PGAT-ABPp与一些具有代表性的方法进行了比较，如表1所示。在本研究中，使用六个指标来评估模型的性能：准确度(Acc)，精确度(Pr)，特异度(Sp)，ROC曲线下面积(AUC)， F1评分(Fs)和马修斯相关系数(MCC)，其数值越高越好。表中加粗表示最好的结果，可见PGAT-ABPp相对于现有方法具有显著提升。

表1 与其他方法对比

作者设计了消融实验来验证模型设计的有效性。在本文中，消融实验用以评估ProtT5的有效性和整合结构信息的意义。先前的研究将特征编码方法分为两大类:肽水平特征和氨基酸水平特征。为了评估不同类型节点特征对结果的影响，作者选择独热（one-hot）编码方法获得基于序列的特征，选择word2vec方法获得氨基酸级特征。据此，模型分别命名为Onehot-GAT和Word2vec-GAT。鉴于CNN在蛋白质迁移学习的下游任务中的优越性能，使用ProtT5-CNN与ProtT5-GAT进行性能比较，旨在观察结构信息的重要性。表2所示的结果显示了ProtT5-GAT在各个指标上的优越性能。与单热编码和word2vec相比，使用ProtT5作为特征提取器时，模型的性能显著提高，表明ProtT5在表示肽序列方面具有显著优势。此外，与ProtT5-CNN相比，ProtT5-GAT的性能也提高了。

表2 消融实验

作者还进行了案例分析。为了探索模型学习生物信息的能力，作者基于注意权值将模型特征的重要性可视化。具体来说，作者选择了四种已知具有抗菌活性的肽，用于可视化权重：

PGLa (GMASKAGAIAGKIAKVALKAL)；

Hepcidin-25 (DTHFPICIFCCGCCHRSKCGMCCKT)；

HNP-1 (ACYCRIPACIAGERRYGTCIYQGRLWAFCC)；

Magainin-2 (GIGKFLHSAKKFGKAFVGEIMNS)

PGLa在水溶液中呈非结构化形式，但在膜中形成两亲性螺旋。之前的研究通过分子动力学模拟发现，PGLa与DMPC/DMPG双分子层之间最强的相互作用来自于Lys5与DMPG磷的接触，PGLa与双分子层结合的自由能主要取决于正电荷的解离和静电PGLa与脂质相互作用之间的平衡。此外，C端螺旋进行旋转以维持赖氨酸和阴离子脂质磷之间的接触。这些关键残基被赋予了更高的关注权重，可以在图2A中的位置4、11、14和18找到。另外，位置7和15分别对应于疏水氨基酸、丙氨酸和缬氨酸。鉴定的残留物共同对PGLa的抗菌性能有重要贡献。

对其他三个案例的分析类似。在Hepcidin-25中，图2B中位于位置14-19的残基表现出更高的权重，这可能归因于它们位于β折叠的旋转区域。HNP-1的热图分析(图2C)显示，具有较高同源性的重要n端和位点得到了更高的权重，并且识别出与肽的两性性质相关的重要位点，包括带正电的和疏水残基。本文的模型可以识别Magainin-2中所有带正电的氨基酸(图2D中的3、6、9、10和13位)。此外，位于0和2位的甘氨酸以及位于7位的丝氨酸对维持抗菌构象很重要，在Magainin-2中也被赋予了更高的注意力权重。

图2 案例分析

本文提出了PGAT-ABPp模型，利用蛋白质语言模型和图注意力网络进行抗菌肽识别。这是一种鲁棒、准确的ABP识别模型。鉴于ABP的识别是后续设计或湿实验的初步筛选，获得更高的准确性不仅是评估模型性能的指标，而且代表了进一步设计的能力，这种能力对设计实验策略和指导未来研究方向具有重要意义。

尽管PGAT-ABPp显示出优于其他方法的优势，但它仍然可以在几个方面进行扩展。首先，在本文的研究中，作者利用ProtT5提取肽嵌入，这表明蛋白质语言模型的选择会影响性能，并且可能是特定适应于某个任务的。鉴于大语言模型的快速发展，未来还将出现更专业的蛋白质语言模型，有望进一步提高模型的性能。其次，本研究中采用了预测结构并将所得的结构信息作为输入，来预测ABP的方法，这种方法尽管取得了更好的结果，但也比直接使用序列消耗了更多的时间和计算成本。此外，值得注意的是，水中的ABP的结构可能与膜中的不一样，因此使用膜中模拟的结构进行鉴定可能更准确，尽管获得这种结构存在重大挑战。总之，开发高精度的ABP识别模型仍然是一项重要的任务。PGAT-ABPp的优异性能使其成为后续发现和设计ABP的有前途的工具。

参考文献:

Hao et al. PGAT-ABPp: Harnessing Protein Language Models and Graph Attention Networks for Antibacterial Peptide Identification with Remarkable Accuracy. Bioinformatics. 2024

--------- End ---------

数据网络性能模型设计

0 人点赞