详解motif的PWM矩阵

2019-12-19 15:47:46 浏览数 (1)

欢迎关注”生信修炼手册”!

通过一致性序列和sequence logo可以直观的表示某个motif的情况,但是在预测motif结合的位点时,只根据这些信息无法准确的判断查询序列上存在对应的motif。 预测输入序列上是否存在特定motif的位点的分析,称之为motif scanning, 示意如下

就是在输入序列上查找特定motif出现的位置。为了满足motif scanning分析的要求,对于motif而言,我们必须提供一个有效的能够代表motif又能够用于序列查找的一个信息,基于这样的出发点,提出了PWM矩阵的概念。

PWM矩阵在不同文章中有不同的叫法,以下3种矩阵其实都是PWM矩阵

  1. position weight matrix(PWM)
  2. position-specific weight matirx(PSWM)
  3. position-specific scoring matrix(PSSM)

PWM矩阵是在PFM矩阵的基础上发展而来,以下图所示PFM矩阵为例

根据碱基频数分布矩阵首先计算出碱基频率分布矩阵,称之为position probability matrixa, 简写为PPM矩阵,示意如下

在PPM矩阵中,碱基的频率被当做概率来使用,不同位置之间可以看做是一个独立事件。根据PPM矩阵,可以计算某个motif序列的概率。根据上述PPM矩阵,GAGGTAAAC出现的概率为

在PPM矩阵基础上,用背景序列的碱基分布频率来校正对应的值,就可以得到PWM矩阵,公式如下

就是将PPM矩阵中对应的值除了背景序列中对应碱基的频率,然后在取log2对数值。大多数情况下,我们认为在基因组上A,T,C,G这4种碱基的含量是相等的,所以每个碱基的背景频率就是0.25。以PPM矩阵第一行的0.3为例,首先将0.3除以背景序列中A碱基的频率0.25,然后在取log2对数,最终的取值越为0.26。

通过这种方式就构建出了如下所示的PWM矩阵

需要注意的是,背景序列中碱基的概率不是都为0.25, 在某些GC含量偏高或者偏低的物种中,4种碱基的分布频率是不相等的,此时就要根据真实的碱基分布来确定背景序列中的碱基频率。

根据PWM矩阵,可以对序列进行打分,以最终的得分值来判断是否为一个潜在的motif。根据上述PWM矩阵,GAGGTAAAC出现的得分值为

score >= 0, 说明这个序列是一个潜在的功能位点,score < 0, 说明是一个随机序列。根据PWM矩阵,可以有效的判断在输入序列中是否存在真实的motif位点。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

0 人点赞