今天给大家介绍的是Sina Ghadermarzi等人发表在Bioinformatics上的一篇文章“XRRpred: accurate predictor of crystal structure quality from protein sequence”。目前,用x射线晶体学产生的蛋白质结构的质量差异很大。作者提出了XRRpred预测模型直接根据蛋白质序列预测分辨率和R-free(结构质量的两种度量)并提供了web服务器,允许批量预测并提供结果的信息可视化。作者证明了XRRpred的预测正确地模拟了分辨率和R-free之间的关系,并再现了蛋白质结构类别之间的结构质量关系,并为常见的同一蛋白质的结构集群的最佳结构质量提供了线索。测试表明,XRRpred显著优于其他间接方法来预测结构质量,例如基于结晶倾向的预测。
一、研究背景
目前,x射线晶体学是确定蛋白质结构的主要方法。这种方法成本高且成功率低,而且得到的结构质量水平不一。然而有些应用如药物设计需要特定水平的结构质量,目前没有工具可以直接预测可结晶蛋白质的最终结构质量。在本文中,作者提出了XRRpred预测模型直接根据蛋白质序列预测分辨率和R-free。
二、模型与方法
2.1 数据集
采用128017个从PDB中提取的蛋白质结构。利用PDB工具以30%的序列相似度对这些结构进行聚类,再为每个聚类选择一个结构来均匀采样。最后从返回的结果中除去肽和含有非标准氨基酸的序列。将2018年1月1日后存入PDB的2037种蛋白质分配到测试数据集中;18,305个“较老”的蛋白质构成了训练数据集。
2.2 评估指标
将包括XRRpred在内的各种模型预测的分辨率与R-free同实验测量值相比较。通过平均绝对误差(MAE)、均方误差(MSE)、皮尔逊相关系数(PCC)和斯皮尔曼相关系数(SCC)来进行评估。
2.3 重采样
由于存在这样的问题:初步预测得到的值的范围相较真实值小得多。原因在于大部分的蛋白质具有接近平均的分辨率及R-free值,而具有大或小值的蛋白质少得多,导致模型更多关注分布的中心,使得预测得到的标准差比实际的要小。解决方法是对训练数据进行重采样。作者使用6种方法分别进行重采样,包括欠采样方法RU(Branco, et al., 2019),过采样方法RBOR (Krawczyk, et al., 2020)、SMOTE (Torgo, et al., 2013),以及增加了降噪步骤的变体RU-ENN、SMOTE-ENN和RBOR-C。
2.4 预测模型
XRRpred通过三个步骤直接从蛋白质序列中预测分辨率和R-free。
第一步:
为每条链提取残基水平的特征,包括内在无序区域(使用IUPred预测)、溶剂可及性(使用ASAquick预测)及一系列组成序列的氨基酸的物理化学和结构性质。内在无序性对结构的产生有负面的影响。通过预测溶剂可及性来识别表面残基,因为暴露在蛋白质表面的残基更可能影响产生的晶体结构质量。
第二步:
提取蛋白质水平的特征。序列和残基水平的特征大小是不固定的,而因为预测器需要固定长度的输入,所以作者从序列及残基水平的特征中提取出手工制作的蛋白质水平的特征。使用最大值、最小值、平均值将同一蛋白质的链级的特征聚合起来。最后一共提取了324个特征。
第三步:
使用两个回归模型分别从蛋白质水平特征预测分辨率和R-free。综合考虑了7个回归器,利用网格搜索优化超参数。特征选择:利用filter和wrapper的组合进行特征选择。基于filter的选择中,根据特征的斯皮尔曼相关系数进行排序,移除SCC低的特征;基于wrapper的选择中,在特征的排序列表中,应用前向选择和线性回归,选择提高预测性能的特征。
模型的优化:
作者对训练数据集使用交叉验证来执行基于网格搜索的优化。作者测试了4,172种组合。寻找一种能够产生最高SCC值的设置,同时为预测提供正确的分辨率范围和R-free值。
作者发现不同的回归器对预测结果的影响不大,而重采样会带来实质性的改进。对于分辨率和R-free的预测,基于SMOTE的重采样产生最佳结果,该重采样对训练数据集中的“稀有”蛋白质进行过采样。结果还表明,对于一些回归器来说,特征选择是不必要的,例如SGD和线性回归,它们能够通过系数的优化来间接选择特征。
三、实验结果
3.1 比较评估
由于没有其他预测器采用分辨率和R-free量化结构质量,因此作者定义了几种间接方法来进行这些预测,包括随机预测、基于序列比对的方法预测和结晶倾向预测。结晶倾向预测器产生一个数值的倾向分数,数值越高表示产生衍射质量晶体的可能性越大。这个分数与分辨率和R-free成反比。使用最小最大归一化将这些预测转换为训练数据集中的分辨率和R-free值的范围,使得最小(最大)结晶倾向被映射到最高(最低)分辨率/R-free值。
由表中实验结果可以看出,XRRpred在对分辨率和R-free的预测上均取得相较其他方法更优的结果,而且相较未使用重采样时结果有了显著提升。作者还研究了用于训练IUPred和ASAquick的蛋白质和来自测试数据集的蛋白质之间的相似性的潜在影响,结果发现完整测试集上的蛋白质与IUPred和ASAquick的训练数据相似度较低。
3.2 为具有多种解析结构的蛋白质识别最佳的结构质量
因为结晶方案不同等原因导致PDB为一些蛋白质提供了多种结构。作者研究相同蛋白质的结构集群,以研究这些结构是否在质量上不同,并希望能够帮助识别蛋白质的最佳结构质量。作者定义了归一化的绝对误差:
结果显示XRRpred确保了低的归一化绝对误差,几乎所有的误差都在1以下,这意味着XRRpred的预测没有超过蛋白质结构集群内部的数值范围。对于大多数集群,XRRpred还产生比集群最大值更接近集群最小值的预测,这表明XRRpred为识别这些蛋白质结构集群的最佳结构质量提供了线索。
3.3 XRRpred的预测体现了不同蛋白质结构类别之间的结构质量关系
CATH数据库中介绍了一种常用的蛋白质结构分类方法,将蛋白质结构分为4类:mainly alpha、mainly beta、alpha and beta和few secondary structures。作者采用CATH的分类标准将测试数据集中的蛋白质分为这4类。比较这四类结构类别的蛋白质的分辨率和R-free实验值,结果发现属于不同结构类别的蛋白质具有显著不同的分辨率和R-free值。例如,结构质量由高到低依次为β类、αβ类,α类,最后到质量最差的c类。采用XRRpred得到的预测值与实验得到的结构质量具有相似的分布。相反,使用其他预测方法得到的结构质量并没有正确展示这几种结构类别蛋白质之间的结构质量分布。由此,作者证明了XRRpred是目前唯一能够重现蛋白质结构四个结构类别之间结构质量关系的工具。
3.4 XRRpred体现了分辨率和R-free之间的关系
作者通过可视化并计算通过实验获得的测试数据集上的分辨率和R-free数据得到两者之间的相关性为0.75,XRRpred对分辨率和R-free的预测与实验获得的数据呈现相似的分布,并且也得出两者之间0.75的相似性,这表明它的预测保留了这两种结构质量度量之间的关系。而其他的间接预测器的预测结果均没有保留这两种结构质量度量之间的关系。
四、总结
XRRpred依赖于原始序列特征、手工特征和现代重采样的设计过程。作者发现对训练集进行重采样提供了统计学上的显著改进,而其他设计考虑(特征和回归器的选择)也提供了一定的改进。XRRpred的预测正确地模拟了分辨率和R-free之间的相关性,体现了蛋白质结构类别之间的结构质量关系,并为相同蛋白质序列中常见的不同结构集群提供了较优的结构质量。
参考文献
Ghadermarzi, S., Krawczyk, B., Song, J., & Kurgan, L. (2021). XRRpred: Accurate Predictor of Crystal Structure Quality from Protein Sequence. Bioinformatics (Oxford, England), btab509. Advance online publication.
https://doi.org/10.1093/bioinformatics/btab509