蛋白质-蛋白质相互作用(PPI)网络是自动标注蛋白质功能的关键。由于同一组蛋白质存在多个PPI网络,这些网络从不同方面捕获特性,因此有效利用这些异构网络是一项具有挑战性的任务。最近,一些深度学习模型结合了PPI网络,将网络上的图嵌入连接起来用于蛋白质功能预测。然而,由于不同PPI网络的密度、结构和噪声水平各不相同,不加选择地结合蛋白质特征会增加噪声水平,导致模型性能下降。可以说,高效的特征选择程序的缺乏,阻碍了对不同PPI网络信息的有效利用。
2024年7月4日,香港科技大学(广州)罗琼教授团队在Bioinformatics上发表文章DualNetGO: a dual network model for protein function prediction via effective feature selection。
作者提出了DualNetGO,这是一个由分类器和选择器组成的对偶网络模型,通过有效地选择来自不同来源的特征来预测蛋白质功能,包括蛋白质-蛋白质相互作用(PPI)网络的图嵌入、蛋白质结构域和亚细胞位置信息。实验结果表明,DualNetGO将包括PPI网络和蛋白质属性在内的特征子集结合起来,比仅使用一种或连接来自各种PPI网络的图嵌入更有效地利用PPI网络信息,其性能超越了现有模型。
如图1所示,DualNetGO包含两个组件:一个图编码器和一个预测器(图1a和b)。图编码器是先前发布的基于Transformer的自编码器(表示为TransformerAE),它将蛋白质属性和PPI网络作为输入,以输出低维嵌入。TransformerAE在集成网络和特征方面具有优越的性能,而无需GNN的消息传递机制,可以更好地捕获复杂的网络属性。在TransformerAE中,邻接矩阵和蛋白质属性矩阵一起经过编码器的6个多头注意层和解码器的另外6个多头注意层来融合来自两个源的信息。注意机制的核心是尺度点积自注意力,其中Q为查询,K为键,V为值矩阵,dk为查询和键向量在矩阵中的维数。在TransformerAE的自监督学习过程中,利用二值交叉熵最小化了传入编码器前的原始输入与解码器后重构输出之间的差值。特征矩阵空间中只包含PPI网络的隐藏状态。
图1 DualNetGO结构图
预测器是由分类器和选择器组成的对偶网络(图1c)。分类器将特征作为每个蛋白质功能的GO函数的输入和输出分数。它在特征矩阵空间中维护一个以ReLU作为每个矩阵的非线性激活函数的单层神经网络,以进一步降维。在第二层维护一个带有softmax激活函数的双层神经网络,为每个GO项输出一个分数。选定的特征矩阵将首先通过它们自己的神经网络模块进行平均,然后通过预测头。在分类器中,使用不对称损失(ASL)作为损失函数来减少容易被区分的负样本的贡献,引导模型在跨类样本不平衡的多标签任务中做出更积极的预测。
选择器是一个两层神经网络,用于根据模型的梯度选择一组重要的特征矩阵,以进一步缩小可能的特征组合。输入是一个单热编码的特征掩码,表示用于输入到分类器的选定特征矩阵,其中值1表示选择相应的特征矩阵。输出是一个近似于分类器验证损失的刻度值。先前的研究表明,经过训练的机器学习模型的梯度绝对值可用于评估输入中相应元素的重要性。通过使用来自分类器的各种掩码及其相应的验证损失进行训练,选择器充当分类器的代理函数。选择器的矢量输入支持通过梯度来评估特征的重要性。具体来说,选择器学习用选择的特征矩阵子集来评估分类器的性能,当选择的输入子集更适合预测蛋白质功能时,期望输出更低的值。
均方误差(MSE)被用作预测损失和分类器在验证集上的真实损失之间的损失函数,训练过程分为三个阶段:
阶段1:抽取特征矩阵的随机组合,这些矩阵经过分类器,并计算蛋白质功能的ASL预测损失,然后反向传播。之后,选择器学习用给定的掩码来评估分类器的性能。这个阶段可以看作是一个探索(exploration)过程,收集信息来训练选择器作为分类器的一个好的代理函数,这需要从分类器中获得各种掩码向量及其相应的验证损失。
阶段2:在每次训练中,首先创建一个权重为0.5的掩码,表示每个矩阵被选择的机会均等,然后使用这个掩码作为选择器的输入,并计算掩码中每个元素的梯度。给定一个经过训练的选择器模型,期望输入的梯度绝对值反映每个元素的重要性。选择相应的矩阵,形成一个新的矩阵空间Mf。由于最佳组合可能是Mf的一个子集,因此从Mf中进一步采样固定数量的组合,并由分类器在验证集上进行评估,以缩小最佳组合的范围。记录最低的验证损失和相应的掩码, 用于阶段1的类似过程,然后训练分类器和选择器。这个阶段可以看作是一个开发(exploitation)过程,它通过检索选择器中的梯度来利用阶段1的信息来确定一组最重要的特征。
阶段3:在整个记录中选择具有最小验证损失的掩码标识,并且分类器的训练过程仅通过使用相应矩阵来继续,而分类器中的预测头将进行更新。当分类器在验证集上达到最佳Fmax分数时,将报告测试集数据上的性能作为最终结果。
作者将DualNetGO与一些具有代表性的方法进行了比较,将micro-AUPR(即m-AUPR),macro-AUPR(即M-AUPR), F1分数,macro-F1(即M-F1)分数,准确度(ACC),Fmax分数作为对比指标(越高越好)。实验采用了人类(human)和小鼠(mouse)蛋白中与生物过程(biological process,BP),分子功能(molecular function,MF),细胞成分(cellular components,CC)有关的各3个数据集标签组,构建了共6个数据集。人类数据集包括9606个蛋白,小鼠数据集包括10090个蛋白。可见,DualNetGO在Human_BP等6个数据集的绝大多数指标上超越了现有方法。
图2 与其他方法对比
作者设计了消融实验来验证模型设计的有效性。表1将Fmax作为对比指标,显示了在Human_BP等六个数据集上所有组件对DualNetGO卓越性能的贡献。阶段1对性能来说是最重要的,在大多数情况下Fmax会急剧下降。阶段1很重要,因为选择器需要首先使用阶段1中分类器提供的验证损失进行训练,以便对阶段2中每个特征矩阵的重要性进行准确评估。由于评估是基于选择器模型的梯度,如果没有阶段1,选择器将被随机启动,因此梯度将与特征重要性无关。而在阶段2,随着越来越多的组合被采样进行训练,选择器可能会逐渐产生准确的评估,但这种替代方法的效率不如阶段1。原因是阶段2的组合抽样依赖于选择器,而选择器不是完全随机的。因此,只有有限的组合将在阶段2采样与阶段1相同的训练次数。
表1 消融实验
作者还进行了案例分析。为了将DualNetGO与其他最先进的方法在CAFA3测试集上进行比较,并展示其泛化能力,作者在多物种设置下的CAFA3训练集上训练模型。为了展示模型集成多模态特征的多功能性,在特征选择空间中加入了由蛋白质语言模型ESM2编码的序列嵌入,而不是原始的特征,而TransformerAE仍然通过融合网络邻接矩阵和属性矩阵来训练。此外,还可以采用融合了DualNetGO和BLASTp预测的同源搜索策略。这里分别用DualNetGO和DualNetGO 表示没有同源搜索的模型和有同源搜索的模型。在表2中,排名最高的结果加粗表示,排名第二和第三的结果标注下划线。结果(表2)显示,DualNetGO和DualNetGO 在CC方面的Fmax和AUPR得分最高,在BP方面的结果相当,在MF方面的结果较差。在先前使用CAFA3数据训练的DualNetGO模型过滤的人/小鼠数据集上也观察到类似的结果。
DualNetGO在CC上的优异表现表明,CC上的蛋白质功能与PPI网络的关系比序列更大,而MF上的功能在很大程度上取决于序列的性质。DualNetGO没有选择Esm2序列嵌入特征作为CC的最终特征之一,而是选择了文本挖掘和协同网络,这一观察结果也支持了这一猜想。BP和MF都选择了ESM2嵌入特征。特别是同源搜索策略对MF的改善比BP和CC更重要,PPI网络与CC之间、序列与MF之间的相关性也得到了先前的研究的支持。
表2 案例分析
本文提出了一种新的DualNetGO模型,通过高效的特征选择对偶网络预测蛋白质功能。研究结果表明,DualNetGO在蛋白质功能预测的各个方面都优于其他的方法,并且在CAFA3测试集的CC方面做出了更好的预测。模型的特征选择策略充分利用了所有的训练数据来提高性能,使得它成为处理多模态数据的通用框架,有效融合蛋白质语言模型、知识图和3D结构的嵌入。此外,案例分析表明CC与PPI网络的关系更大,而MF更依赖于序列属性。然而,图嵌入方法在蛋白质功能预测上的表现如何与不同PPI网络的性质相关,这是PPI研究需要更多关注的问题,也是未来探索的开放性问题。
DualNetGO的一个限制是,在当前阶段它不支持端到端训练,这意味着整体性能在很大程度上取决于特征选择空间中所有特征的质量。由自监督TransformerAE模型生成的图隐藏状态可能无法为蛋白质功能预测提供足够的信息。另一个缺点是,基于网络的模型的训练集通常比其他模型使用的训练集小,因为只有记录在PPI网络中的蛋白质被保留。因此,一些有代表性的蛋白质可能无法充分利用来训练模型。随着PPI数据的收集越来越多,这一问题将得到缓解。
为了进一步改进模型,可以采用更先进的图嵌入方法对PPI网络进行预处理,并采用更复杂的网络结构进行预测。此外,可以尝试以端到端方式训练图编码器和DualNetGO,或者在特征选择方面包含来自其他研究的各种高质量特征。
参考资料
Chen et al. DualNetGO: a dual network model for protein function prediction via effective feature selection. Bioinformatics. 2024
--------- End ---------