序列比对:替换计分矩阵

2022-05-05 14:31:58 浏览数 (2)

序列比对

当研究一条DNA或蛋白质序列时,主要关注的是其包含的遗传信息;当研究两条或多条DNA或蛋白质序列时,则主要关注不同序列之间的差别与联系。在生物信息学中,对生物大分子的序列比对是非常基本的工作。

上一篇文章DNA与蛋白质的序列比对原理介绍了两个序列相似性和距离的定量分析方法,即序列对齐与匹配/非匹配字符的打分。进一步地,由于在生命系统中不同碱基或氨基酸之间发生替换的概率、实质并不相同,因此在计分中不同字符的替换应该加以区分,从而使其更加接近真实情况。不同替换的计分规则被称为替换计分矩阵,其包含匹配得分与错配罚分的详细计分

DNA替换计分矩阵

A:等价矩阵(unitary matrix)

最简单的替换计分矩阵,匹配得分为1,失配(也即替换)得分为0。

B:转换-颠换矩阵(transition-transversion matrix)

DNA的四种脱氧核苷酸的碱基中嘌呤(A、G)有两个杂环,分子量较大;嘧啶(C、T)只有一个杂环,分子量较小。如果碱基替换而环数不变(A→G,C→T)则称为转换(transition);如果碱基替换环数也发生变化(A→C,A→T,G→C等)则称为颠换(transversion)。在现实进化过程中,转换的概率要比颠换高,因此转换计分-1,颠换计分-5。

C:BLAST矩阵

匹配的字符计分为5,不匹配的字符计分为-4。

不同的替换计分矩阵打分结果不同,序列的相似性得分与距离结果也不同,如下所示:

蛋白质替换计分矩阵

蛋白质序列由20种氨基酸组成,分子大小、水的亲和性等都影响替换概率;而且根据经验天冬酰胺(Asn)、天冬氨酸(Asp)、谷氨酸(Glu)、丝氨酸(Ser)最容易突变,而半胱氨酸(Cys)、色氨酸(Trp)最不容易发生突变。因此蛋白序列比较需要更复杂的计分规则,如下所示:

A:等价矩阵

与DNA等价矩阵类似,相同氨基酸匹配得分为1,不同氨基酸得分为0。

B:遗传密码矩阵(geneticcode matrix,GCM)

通过计算一个氨基酸转换为另一个氨基酸所需密码子变化的碱基数目计算而得,如果一个氨基酸的密码子转换为另一个氨基酸的密码子只需替换1个碱基,那么替换代价为1,依此类推,常用于进化距离的计算,如下所示:

C:疏水性矩阵(hydrophobicmatrix)

根据理化性质不同不同氨基酸的替换代价不同,例如异亮氨酸(Iso)、缬氨酸(Val)、丝氨酸(Ser)、苏氨酸(Thr)相互替换并不改变蛋白质理化性质。根据20种氨基酸侧链基团疏水性的不同以及氨基酸替换前后理化性质改变的大小,制定以氨基酸疏水性为标准的疏水性矩阵,来计算得分,适用于偏重蛋白功能分析的序列比较,若一次氨基酸替换疏水特性不发生太大的变化,则这种替换得分高,否则替换得分低,如下所示:

D:PAM矩阵

为了得到打分矩阵,更常用的方法是统计自然界中各种氨基酸残基的相互替换率。如果两种特定的氨基酸之间替换发生得比较频繁,那么这一对氨基酸在打分矩阵中的互换得分就比较高。PAM矩阵就是这样一种打分矩阵。PAM矩阵是目前蛋白质比对中第一个广泛使用的最优矩阵,它是基于进化原理的,建立在进化的可接受点突变模型PAM(PointAccepted Mutation)基础上,通过统计相似序列比对中各种氨基酸之间实际替换的发生率而得到的。

在PAM矩阵中,一个PAM就是一个进化的变异单位,即序列中1%的氨基酸发生改变。但是,这并不意味着经过100次PAM后,每个氨基酸都发生变化,因为其中一些位置可能会经过多次改变,甚至可能变回到原先的氨基酸。因此,相距不同的进化距离,突变发生率不同,因此不同相似度(进化距离)的序列进行比较应该使用不同单位PAM的PAM矩阵。1个PAM1(表中数据为实际发生率*10000)和250个PAM氨基酸替换发生率如下所示(上侧为原始氨基酸,左侧为替换氨基酸):

计算PAM矩阵的方法为,统计相似蛋白质序列(相似性≥85%)的替换率,根据氨基酸替换发生率计算i氨基酸被替换为j氨基酸的概率mi,j,并除以氨基酸突变率(一个氨基酸被替换为其他氨基酸的概率)pi,标准化后取对数得到PAM1矩阵,并自乘n次得到PAMn。由于PAMn矩阵是通过PAM1矩阵自乘获得,一旦PAM1的矩阵有误差,那么自乘250后得到的PAM250矩阵的误差就会变得非常大,因此这个矩阵目前已经很少使用,而逐渐被BLOSUM矩阵代替。

E:BLOSUM矩阵

BLOSUM矩阵是由Henikoff首先提出的另一种氨基酸替换矩阵,它也是通过统计相似蛋白质序列的替换率而得到的。PAM矩阵是从蛋白质序列的全局比对结果推导出来的,而BLOSUM矩阵则是从蛋白质序列块(短序列)比对而推导出来的。但在评估氨基酸替换频率时,应用了不同的策略。基本数据来源于BLOCKS数据库,其中包括了局部多重比对(包含较远的相关序列,与在PAM中使用较近的相关序列相反)。虽然在这种情况下没有用进化模型,但它的优点在于可以通过直接观察而不是通过外推获得数据。同PAM模型一样,也有一系列的BLOSUM矩阵,可以根据亲缘关系来选择不同的BLOSUM矩阵进行序列比较。然而,BLOSUM矩阵阶数的意义与PAM矩阵正好相反。低阶PAM矩阵适合用来比较亲缘较近的序列,而低阶BLOSUM矩阵更多是用来比较亲缘较远的序列。一般来说,BLOSUM62矩阵适于用来比较大约具有62%相似度的序列,而BLOSUM80矩阵更适合于相似度为80%左右的序列。BLOSUM62如下图所示:

END

0 人点赞