背景
人类基因组测序数据分析得到的变异位点,如 SNV、INDEL 等,只是给出了位点信息,不便于解读。需要经过注释。注释主要包括基因定位、人群频率计算、进化保守性预测、蛋白功能影响预测等分析,才能用于遗传分析和解读。
目前已知的主流变异位点注释软件包括 SnpEff、ANNOVAR、GATK Funcotator、VEP、CADD等。但是由于不同变异检测软件生成的 vcf 文件有差别,且不同软件依赖不同的运行环境和注释数据库。因此,注释起来比较麻烦,经常出错。
bcftools 提供了一些简单的注释功能,但信息不全。可以使用一些专门的工具。SNPeff比 bcftools 具有更多的注释功能。snpeff 是用于变异注释的软件,其中的 eff 是 effect 的意思,也就是变异的影响,虽然叫做 snpeff,但是变异的位点不仅仅包括 snp,也包括小的插入,缺失等。
VEP 是 ensembl 出品,质量有保障。VEP 发布了在线版和下载版,对于非生物信息背景的各位,可以用在线版实现相关信息的注释。
GATK Funcotator 是 GATK 下游分析软件,可以很好兼容 GATK 的结果。
一、注释原理
注释软件可以选用 annovar,vep,snpeff,oncotator 等,原理都是将 SNP 位点信息与已知数据库位点信息进行匹配,可以判断 SNP 氨基酸的影响,或者改突变对表型带来的影响。
例如是否对某种靶向药物敏感或者耐药。例如在非小细胞肺腺癌里,EGFR 基因的突变频率非常高,尤其是亚裔非吸烟的女性患者。针对 EGFR 基因的突变位点和相对应的靶向药物也研究的比较清楚。
肿瘤基因突变影响耐药性
不同基因突变对耐药性的影响
二、SNPeff 注释
snpeff 是用于变异注释的软件,其中的 eff 是 effect 的意思,也就是变异的影响,虽然叫做 snpeff,但是变异的位点不仅仅包括 snp,也包括小的插入,缺失等。SNPeff 软件包中包含两个程序 snpeff 与 snpsift。
snpeff 主要用来预测 snp 突变的影响,包括氨基酸变化等,这个根据密码字表就可以判断,不需要依赖数据库,输入文件是变异检测得到的 vcf 文件;
snpsift 的功能是用来操作变异结果文件,包括过滤,注释,统计,合并,分割等等操作。在进行注释的时候,需要使用相关数据库。和其他所有注释工具一样,注释内容严重依赖数据库的信息。
代码语言:javascript复制https://pcingola.github.io/SnpEff/
代码语言:javascript复制#列出所有数据库
snpEff databases | less
#筛选人基因组数据库
snpEff databases | grep "Homo"
#下载注释文件
snpEff download GRCh38.105
#与dbsnp进行注释得到rs号
SnpSift annotate /share/home/xiehs/data/GATK/hg38/dbsnp_138.hg38.vcf.gz merge.HC.snps.indel.VQSR.vcf.gz >merge.anno.rs.vcf
三、Annovar 注释
ANNOVAR 是一个高效的注释工具,能够利用最新的数据来分析各种基因组中的遗传变异。由 perl 编写,支持包括 VCF 在内的多种输入和输出文件格式。但是 annovar 是收费软件,需要使用教育邮箱进行注册下载使用。
ANNOVAR 能够利用最新的数据来分析各种基因组中的遗传变异。主要包含三种不同的注释方法,Gene-based Annotation(基于基因的注释)、Region-based Annotation(基于区域的注释)、Filter-based Annotation(基于筛选的注释)。
代码语言:javascript复制https://annovar.openbioinformatics.org/en/latest/
Annovar 包含多个软件,分别为
annotate_variation.pl #主程序
coding_change.pl #推断蛋白质序列
convert2annovar.pl #格式转换为 annovar 输入歌会
retrieve_seq_from_fasta.pl #用于自行建立其他物种的转录本
able_annovar.pl #注释程序,可一次性完成三种类型的注释
variants_reduction.pl #可用来更灵活地定制过滤注释流程
example #存放示例文件
humandb #人类注释数据库
代码语言:javascript复制#下载数据库
/share/home/xiehs/biosoft/annovar/annotate_variation.pl -downdb -webfrom annovar refGene humandb/
NOTICE: The --buildver is set as 'hg18' by default
NOTICE: Web-based checking to see whether ANNOVAR new version is available ... Done
NOTICE: Downloading annotation database http://www.openbioinformatics.org/annovar/download/hg18_refGene.txt.gz
#生成annovar格式
/share/home/xiehs/biosoft/annovar/convert2annovar.pl -format vcf4old merge.HC.snps.indel.VQSR.vcf.gz >merge.annovar.input
#gene-based注释
/share/home/xiehs/biosoft/annovar/annotate_variation.pl --geneanno -buildver hg18 --outfile merge.geneanno.anno merge.annovar.input /share/home/xiehs/20.human/annovar/humandb/
#clinvar临床数据库注释
/share/home/xiehs/biosoft/annovar/convert2annovar.pl -format vcf4old merge.HC.snps.indel.VQSR.vcf.gz >merge.annovar.input
#下载临床数据,这个地方基因组版本不一致,建议用最新的hg38——clinvar_20220320
/share/home/xiehs/biosoft/annovar/annotate_variation.pl -downdb -webfrom annovar --buildver hg19 clinvar_20180603 humandb/
#这个地方基因组版本不一致,报错hg18_clinvar_20180603找不到
/share/home/xiehs/biosoft/annovar/annotate_variation.pl --filter -buildver hg18 --outfile merge.clinvar.anno merge.annovar.input -dbtype clinvar_20180603 /share/home/xiehs/20.human/humandb
四、在线注释
SNPedia:
代码语言:javascript复制https://www.snpedia.com/
自动生成报告系统:
代码语言:javascript复制https://promethease.com/
vep 在线注释:
代码语言:javascript复制https://useast.ensembl.org/Tools/VEP
写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。
代码语言:javascript复制bioinfoer.com
有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。