通过Eigen score衡量变异位点的功能重要性

2020-05-11 10:32:00 浏览数 (1)

变异位点的注释是突变分析中最重要的一项分析内容,在过去的十几年中,各个组织和团队开发了大量的软件和数据库,对变异位点进行注释。现阶段对于变异位点的注释而言,最大的挑战之一就是相关的软件和数据库太多了。不同软件有着不同的标准和阈值,在实际筛选时,往往无从下手。

针对这一情况,相关科学家发明了一个软件Eigen, 它综合了多种变位点注释信息,采用了一种打分机制,对变异位点的功能重要程度进行打分,打分越高,说明该变异的生物学功能更加显著。和CADD score 类似,它也有raw score 和 phred score 两种scoer 值,在实际筛选中,通常使用phred score作为阈值。ANNOVAR 软件中, 使用phred score > 2作为筛选条件,认为score 值大于2的变异位点更有重要的生物学意义和功能。

软件的官网如下

http://www.columbia.edu/~ii2135/eigen.html

在官网上提供了软件的源代码和实现计算好的hg19版本的基因组变异位点的Eigen score值。, 链接如下:

区分了编码区的变异位点和非编码区的变异位点,对于非编码区的变异位点,由于数量巨大,按照不同染色体进行了拆分。同时提供了原始文件和tabix建立的索引。

文件中记录了每个变异为位点的Eigen score值,由于列数较多,我截取了部分列展示如下

EigenEigen-PC可以看做是两种不同的打分模型,在不同的打分模型中,各参考数据的比重不同。在实际的文件中,还可以看到SIFT, Polyphen, MA, GERP, PhyloP等列,这些列其实就是各种参考数据。在计算Eigen score时,Polyphen, MA等数据具有最高权重;在计算Eigen-PC score时,GERPPhyloP等数据具有最高权重。

更多的信息可以参考对应的文献,链接如下

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4731313/pdf/nihms742074

0 人点赞