作者 | 魏乐松 编辑 | 庞超
今天给大家介绍北京理工大学刘滨教授和哈工大(深圳)徐勇教授团队在“IEEE/ACM Transactions on Computational Biology and Bioinformatics“上发表的工作 “Protein Fold Recognition Based on Auto- Weighted Multi-view Graph Embedding Learning Model”。蛋白质折叠识别对于蛋白质结构预测和药物设计都至关重要。目前已经提出一些方法来从蛋白质序列提取有识别度的特征来进行折叠识别,但是如何集成这些特征以提高预测准确性,仍是一个具有挑战性的问题。在本文中,作者提出两种新的模型:AWMG和EMfold。AWMG是一种基于多视图学习框架的模型,其将每个视图视为对应蛋白质数据源的中间表示形式,例如进化信息和检索信息。Emfold是一种集成模型,它结合AWMG和DeepSS这两种互补的方法,其中DeepSS是一种基于模板的算法,集成了SPARKS-X 和 DeepFR 算法。Emfold集成了基于模板算法和机器学习的优势。实验结果表明,AWMG 和 Emfold的性能显著优于其他现有的预测方法。
一、研究背景
蛋白质三级结构的识别对于理解蛋白质的功能特性、蛋白质和蛋白质的相互作用、蛋白质功能的含义等具有重要意义。蛋白质折叠识别是根据蛋白质序列来预测蛋白质的三维结构。通常,相同的蛋白质折叠具有相似的主要二级结构和功能。因此蛋白质折叠识别对于蛋白质结构鉴定和功能注释具有至关重要的作用。
目前针对蛋白质折叠识别已经提出了许多方法,这些方法主要分为两种:基于模板的方法和机器学习方法。基于模板的方法是计算目标序列和模板之间的相似性分数,对比结果的效果主要取决于模板蛋白的选取。SPARKS-X算法就是基于Protein Data Bank利用结构属性,例如二级结构,来计算目标序列和模板序列之间的相似性。
目前提出的方法还存在一些问题需要解决:(1)许多机器学习方法都是利用不同特征的结合来预测蛋白质折叠,但是融合的特征存在一些冗余信息,并且可能造成维度灾难;(2)一些方法忽视了特征的多样性;(3)还有一些方法为每个特征赋予一个权重,增加了额外参数。这些弱特征会导致算法的性能降低。
因此,假设来自蛋白质序列的多个视图存在一个共享的子空间,本文提出一种基于自动加权的多视角图嵌入学习模型来预测蛋白质折叠类型,称为AWMG。AWMG模型,首先为每一个视角自动学习一个权重,并使用拉普拉斯矩阵获取每个序列的最邻近序列关系,接着,利用不同视角中的共有信息来构建潜在的子空间,来预测蛋白质折叠。这个模型还使用一种特殊的边缘约束来增大不同折叠类型的边界,以此提高预测准确性。此外,本文还提出一种称为Emfold的集成模型,这个模型,包含了AWMG和两个基于模板的算法:SPARKS-X和DeepFR。
二、模型与方法
2.1 AWMG模型
本文作者使用如下公式从不同视角对蛋白质序列进行嵌入:
其中,
表示一组n个蛋白质序列;
表示一组r个查询序列;d∈[1, ... ,D]表示第d个视图;md表示第d个视图特征的维度;
表示第d个视角的变换矩阵;
表示标签矩阵的映射矩阵;
表示潜在的子空间;
表示拉普拉斯矩阵;
表示学到的回归目标矩阵,这个矩阵表示基准数据集的折叠类型的种类;
λ1,λ2,λ3,λ4,r和ε是参数;
是第d个视图的权重。
AWMG模型的流程图如图1所示:
图1. AWMG模型的框架
AWMG算法的伪代码如下所示:
2.2 EMfold集成模型
为了集成多视角学习和基于模板学习的优点,本文还提出了一种称为EMfold的集成方法,这个方法定义如下:
其中,T 是一个阈值;DeepSS是SPARKS-X和DeepFR的线性组合。EMfold模型的具体流程如图2所示:
图2. EMfold模型的流程图
三、实验结果
3.1 AWMG的性能和特性
AWMG将AAC(Autocross-covariance)和分别基于SPARKS-X和DeepFR得到的序列对的相似性分数作为三种视角,来构建分类器。为了验证AWMG的性能,本文将这三种特征直接进行线性组合,然后作为传统分类器的输入,实验结果如表1所示,AWMG的性能优于其他分类器。
表1. AWMG与其他分类算法在两个数据集上的实验结果
不同折叠类型的蛋白质序列具有特殊的属性,本文利用最相邻序列来构建每个视角的拉普拉斯矩阵,因此矩阵可以获得获得不同折叠的局部邻居信息。如图3所示,其中的值表示了不同序列之间的关系,值越大,说明这两个序列最相邻的可能性越大,红色框区域表示在训练集中属于相同折叠类型的序列对。
图3. 在LE数据上某一视角的拉普拉斯矩阵
3.2 EMfold的性能
基于模板的方法DeepSS集成了SPARKS-X和DeepFR这两个方法,为了验证DeepSS和AWMG两个算法是否具有互补性,本文在两个数据集上对这两个方法进行对比,实验结果如图4所示,可以观察到这两个方法是具有互补性的。这是由于DeepSS对同源模板蛋白序列检测较为敏感,而同源模板序列对AWMG模型影响不大,同时,AWMG是从非已知结构的蛋白质上构建三个视角的潜在子空间,而DeepSS的性能在查询序列与模板序列之间的关系不明显的情况下是比较弱的。表2显示了AWMG、DeepSS和EMfold在两个数据集上的实验结果,可以看到集成方法的性能是最优的。
图4. 在LE和YK数据集上,比较AWMG和DeepSS在每种折叠上精度的实验结果
表2. AWMG、DeepSS和EMfold在LE和YK数据集上的实验结果
3.3 EMfold的性能
表3. 数据集LE上,AWMG和EMfold与现有其他方法在二折交叉验证上的实验结果
表4. 数据集YK上,AWMG和EMfold与现有其他方法在三折交叉验证上的实验结果
四、总结
本文提出了两个新的方法:AWMG和EMfold,来预测蛋白质折叠类型。AWMG基于自动加权的多视图学习模型利用了线性判别回归框,EMfold则是结合了AWMG和DeepSS方法。与传统的多视图学习方法不同,AMWG利用拉普拉斯矩阵获得不同折叠的局部最近信息,并通过应用边缘化约束来扩大不同折叠之间的边界。作为一种集成方法,EMfold的性能优于AWMG。实验结果表明,所提出的两个方法的性能优于其他现有的方法。
参考文献
K. Yan, J. Wen, Y. Xu and B. Liu, "Protein Fold Recognition Based on Auto-Weighted Multi-view Graph Embedding Learning Model," in IEEE/ACM Transactions on Computational Biology and Bioinformatics,
doi: 10.1109/TCBB.2020.2991268.