SNP注释

2023-09-04 07:58:16 浏览数 (1)

背景

人类基因组测序数据分析得到的变异位点,如 SNV、INDEL 等,只是给出了位点信息,不便于解读。需要经过注释。注释主要包括基因定位、人群频率计算、进化保守性预测、蛋白功能影响预测等分析,才能用于遗传分析和解读。

目前已知的主流变异位点注释软件包括 SnpEff、ANNOVAR、GATK Funcotator、VEP、CADD等。但是由于不同变异检测软件生成的 vcf 文件有差别,且不同软件依赖不同的运行环境和注释数据库。因此,注释起来比较麻烦,经常出错。

bcftools 提供了一些简单的注释功能,但信息不全。可以使用一些专门的工具。SNPeff比 bcftools 具有更多的注释功能。snpeff 是用于变异注释的软件,其中的 eff 是 effect 的意思,也就是变异的影响,虽然叫做 snpeff,但是变异的位点不仅仅包括 snp,也包括小的插入,缺失等。

VEP 是 ensembl 出品,质量有保障。VEP 发布了在线版和下载版,对于非生物信息背景的各位,可以用在线版实现相关信息的注释。

GATK Funcotator 是 GATK 下游分析软件,可以很好兼容 GATK 的结果。

一、注释原理

注释软件可以选用 annovar,vep,snpeff,oncotator 等,原理都是将 SNP 位点信息与已知数据库位点信息进行匹配,可以判断 SNP 氨基酸的影响,或者改突变对表型带来的影响。

例如是否对某种靶向药物敏感或者耐药。例如在非小细胞肺腺癌里,EGFR 基因的突变频率非常高,尤其是亚裔非吸烟的女性患者。针对 EGFR 基因的突变位点和相对应的靶向药物也研究的比较清楚。

肿瘤基因突变影响耐药性

不同基因突变对耐药性的影响

二、SNPeff 注释

snpeff 是用于变异注释的软件,其中的 eff 是 effect 的意思,也就是变异的影响,虽然叫做 snpeff,但是变异的位点不仅仅包括 snp,也包括小的插入,缺失等。SNPeff 软件包中包含两个程序 snpeff 与 snpsift。

snpeff 主要用来预测 snp 突变的影响,包括氨基酸变化等,这个根据密码字表就可以判断,不需要依赖数据库,输入文件是变异检测得到的 vcf 文件;

snpsift 的功能是用来操作变异结果文件,包括过滤,注释,统计,合并,分割等等操作。在进行注释的时候,需要使用相关数据库。和其他所有注释工具一样,注释内容严重依赖数据库的信息。

代码语言:javascript复制
https://pcingola.github.io/SnpEff/
代码语言:javascript复制
#列出所有数据库    
snpEff databases | less
#筛选人基因组数据库    
snpEff databases | grep "Homo"
#下载注释文件
snpEff download GRCh38.105

#与dbsnp进行注释得到rs号  
SnpSift annotate /share/home/xiehs/data/GATK/hg38/dbsnp_138.hg38.vcf.gz merge.HC.snps.indel.VQSR.vcf.gz >merge.anno.rs.vcf

三、Annovar 注释

ANNOVAR 是一个高效的注释工具,能够利用最新的数据来分析各种基因组中的遗传变异。由 perl 编写,支持包括 VCF 在内的多种输入和输出文件格式。但是 annovar 是收费软件,需要使用教育邮箱进行注册下载使用。

ANNOVAR 能够利用最新的数据来分析各种基因组中的遗传变异。主要包含三种不同的注释方法,Gene-based Annotation(基于基因的注释)、Region-based Annotation(基于区域的注释)、Filter-based Annotation(基于筛选的注释)。

代码语言:javascript复制
https://annovar.openbioinformatics.org/en/latest/

Annovar 包含多个软件,分别为

annotate_variation.pl #主程序

coding_change.pl #推断蛋白质序列

convert2annovar.pl #格式转换为 annovar 输入歌会

retrieve_seq_from_fasta.pl #用于自行建立其他物种的转录本

able_annovar.pl #注释程序,可一次性完成三种类型的注释

variants_reduction.pl #可用来更灵活地定制过滤注释流程

example #存放示例文件

humandb #人类注释数据库

代码语言:javascript复制
#下载数据库
/share/home/xiehs/biosoft/annovar/annotate_variation.pl -downdb -webfrom annovar refGene humandb/
    NOTICE: The --buildver is set as 'hg18' by default
    NOTICE: Web-based checking to see whether ANNOVAR new version is available ... Done
    NOTICE: Downloading annotation database http://www.openbioinformatics.org/annovar/download/hg18_refGene.txt.gz

#生成annovar格式  
/share/home/xiehs/biosoft/annovar/convert2annovar.pl -format vcf4old merge.HC.snps.indel.VQSR.vcf.gz >merge.annovar.input
#gene-based注释  
/share/home/xiehs/biosoft/annovar/annotate_variation.pl --geneanno -buildver hg18 --outfile merge.geneanno.anno merge.annovar.input /share/home/xiehs/20.human/annovar/humandb/

#clinvar临床数据库注释
/share/home/xiehs/biosoft/annovar/convert2annovar.pl -format vcf4old merge.HC.snps.indel.VQSR.vcf.gz >merge.annovar.input  
#下载临床数据,这个地方基因组版本不一致,建议用最新的hg38——clinvar_20220320
/share/home/xiehs/biosoft/annovar/annotate_variation.pl -downdb -webfrom annovar --buildver hg19 clinvar_20180603 humandb/ 
#这个地方基因组版本不一致,报错hg18_clinvar_20180603找不到
/share/home/xiehs/biosoft/annovar/annotate_variation.pl --filter -buildver hg18 --outfile merge.clinvar.anno merge.annovar.input -dbtype clinvar_20180603 /share/home/xiehs/20.human/humandb

四、在线注释

SNPedia:

代码语言:javascript复制
https://www.snpedia.com/

自动生成报告系统:

代码语言:javascript复制
https://promethease.com/

vep 在线注释:

代码语言:javascript复制
https://useast.ensembl.org/Tools/VEP

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。

代码语言:javascript复制
bioinfoer.com

有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。

0 人点赞