ANNOVAR — 注释数据库与结果

2024-06-11 17:35:07 浏览数 (3)

工欲善其事必先利其器

书接上文:ANNOVAR —— 基因组变异注释利器

前面我们介绍了,annovar的基本用法,并输出了注释结果,今天我们进一步了解下注释所用到的数据库以及结果解读

1table_annovar联合注释

代码语言:javascript复制
~/software/annovar/table_annovar.pl homo_test.filter.vcf 
    ~/software/annovar/humandb/ -buildver hg38 
    -out annovar_test 
    -remove 
    -protocol refGene,cytoBand,exac03,avsnp150,dbnsfp42a,knownGene,clinvar_20221231
    -operation gx,r,f,f,f,g,f 
    -nastring .  -polish --vcfinput

protocal 参数中,我们用到了多个注释数据库,那么这些数据库都是什么?

2可选注释数据库

用于基因注释的数据库:

refGene

  • 数据来源:数据库来自美国国家生物技术信息中心(NCBI)的RefSeq项目(https://www.ncbi.nlm.nih.gov/refseq/)
  • 内容:一组全面、完整、非冗余、注释良好的参考序列,包括基因的位置、转录本、编码区(CDS)的详细信息,以及每个转录本的外显子边界和长度。
  • 用途:用于基因级别的变异注释,帮助研究者判断变异落在基因的哪个区域(如外显子、内含子、UTR),以及变异对基因表达和功能的潜在影响。

refGeneWithVer

  • 数据来源:与refGene相同,也是来自NCBI的RefSeq项目。
  • 内容:除了包含refGene的所有信息外,还包括转录本版本号。
  • 用途:这个数据库的主要用途与refGene类似,但添加了转录本版本号,有助于精确跟踪和引用特定的转录本。

knownGene

  • 数据来源:来自UCSC的已知的基因(https://genome.ucsc.edu/)
  • 内容:包括基因的名称、位置、转录本和外显子信息,主要基于UCSC的整合数据。
  • 用途:用于基因和转录本级别的注释,有助于了解变异在基因表达水平上的潜在影响。

ensGene

  • 数据来源:基于Gencode注释的最新转录本信息(https://www.gencodegenes.org/)
  • 内容:包括由Gencode提供的基因名称、位置、转录本和外显子信息。
  • 用途:用于基因级别的变异注释,使研究者可以快速确定一个给定的遗传变异是否位于某个转录本的编码区、UTR区、内含子或其他调节区域。
  • ensGene40 和 ensGene41 :数字特指Gencode的某个特定注释版本,使研究人员可以根据特定版本的注释来分析遗传变异

基于区域的注释:

cytoBand

  • 来源:这个数据库来源于UCSC Genome Browser (https://genome.ucsc.edu/)
  • 内容:它包含染色体的带型信息,这些带型基于染色体的染色质结构差异,可以帮助定位染色体上的特定区域。
  • 用途:主要用于标记变异发生的染色体区域,有助于可视化和区域定位。

基于过滤的注释

基因变异预测和功能性数据库

dbNSFP 系列 (dbnsfp30a, dbnsfp31a, dbnsfp33a, dbnsfp35a, dbnsfp35c, dbnsfp41a, dbnsfp41c, dbnsfp42a, dbnsfp42c)

  • 数据来源: 人类非同义和剪接位点 SNV 功能预测和注释的一站式数据库。综合了多个数据库,包括SIFT, PolyPhen-2, MutationTaster等预测工具的结果(http://database.liulab.science/dbNSFP)
  • 内容: 包括非同义突变的功能预测分数、保守性得分、基因组注释、蛋白质结构预测等。
  • 用途: 用于预测非同义单核苷酸变异对蛋白质功能的影响。

revel

  • 数据来源: 多种预测工具的综合评分(https://sites.google.com/site/revelgenomics/)
  • 内容: 针对人类编码非同义变异的集成风险评分。
  • 用途: 用于预测变异对蛋白功能的可能影响。
常见变异数据库

avsnp 系列 (avsnp142, avsnp144, avsnp147, avsnp150)

  • 数据来源: 基于NCBI的dbSNP数据库的不同版本(https://www.ncbi.nlm.nih.gov/snp/)
  • 内容: 包含广泛的单核苷酸多态性(SNP)及其rs编号。
  • 用途: 用于提供变异的常见性信息,帮助区分罕见变异和常见多态性。

1000 Genomes (1000g2014oct, 1000g2015aug)

  • 数据来源: 1000 Genomes Project (https://www.internationalgenome.org/)
  • 内容: 全球各种族群的单核苷酸多态性(SNPs)和小的插入删除(indels)。
  • 用途: 用于分析变异的群体频率,对遗传多样性研究非常重要。

GnomAD (gnomad, gnomad211, gnomad30, gnomad312)

  • 数据来源: Genome Aggregation Database — Broad Institute(https://gnomad.broadinstitute.org/)
  • 内容: 大规模全基因组和外显子测序数据,涵盖多种族群的频率数据。
  • 用途: 提供人群中变异的频率信息,对遗传研究和疾病关联分析很有帮助。

ExAC (exac03, exac03nonpsych, exac03nontcga)

  • 数据来源: Exome Aggregation Consortium,收集了多个研究项目的外显子测序数据 (已迁移至 gnomAD : https://gnomad.broadinstitute.org/downloads#exac )
  • 内容: 大规模外显子测序数据的变异频率。
  • 用途: 用于评估变异在较大人群中的频率,特别是在健康人群中。有助于判断变异的罕见程度及其可能的疾病相关性。
其他数据库

Kaviar

  • 数据来源: 公共和私人测序项目的集合。(https://db.systemsbiology.net/kaviar/)
  • 内容: 全球人群中已知变异的集合。
  • 用途: 用于评估变异在人群中的普遍性。

ESP6500

  • 数据来源: NHLBI GO Exome Sequencing Project(国家心肺和血液研究所外显子组测序计划)。
  • 内容: 美国人群的心血管健康研究中识别的变异。
  • 用途: 提供心血管相关基因的变异频率。

Intervar

  • 数据来源: 自主开发的注释工具,基于ACMG/AMP 2015标准。(https://wintervar.wglab.org/)
  • 内容: 提供变异的自动化解释,根据一系列标准分类变异的致病性。
  • 用途: 用于自动化评估遗传变异的临床意义。

COSMIC (cosmic70)

  • 数据来源: 英国桑格研究所的COSMIC数据库(Catalogue of Somatic Mutations in Cancer https://cancer.sanger.ac.uk/cosmic#)
  • 内容: 包含来自COSMIC的癌症相关突变数据。
  • 用途: 用于研究癌症相关的遗传变异,帮助识别癌症生物标志物。

Gene4Denovo(gene4denovo201907)

  • 数据来源: 专门收集和整理的人类新生突变数据库(http://genemed.tech/gene4denovo/home)
  • 内容: 包含2019年7月前发表的新生突变数据。
  • 用途: 研究新生变异与疾病的关联。

M-Cap

  • 数据来源: 孟德尔临床适用致病性评分(http://bejerano.stanford.edu/mcap/index.html)
  • 内容: 预测变异致病性的综合评分。
  • 用途: 用于评估变异的致病可能性。

NCI60

  • 数据来源: 美国国家癌症研究所的60种人类癌症细胞系(https://dtp.cancer.gov/discovery_development/nci-60/cell_list.htm)
  • 内容: 包含这些细胞系的遗传变异信息。
  • 用途: 癌症研究和药物测试。

ICGC28

  • 数据来源: 国际癌症基因组联盟(https://dcc.icgc.org/releases/release_28)
  • 内容: 国际癌症基因组数据第28版
  • 用途: 癌症基因组研究,寻找全球范围内的癌症基因变异。

ClinVar

  • 数据来源: 来自NCBI 的ClinVar数据库(https://www.ncbi.nlm.nih.gov/clinvar/)
  • 内容: 包含已知与疾病相关的遗传变异及其临床意义。
  • 用途: 用于识别特定的遗传变异与其相应的疾病状态,对于临床遗传学和疾病诊断非常重要。

ABraOM

  • 数据来源: 巴西人群基因组变异数据库(https://abraom.ib.usp.br/)
  • 内容: 包含巴西人群中的常见和罕见变异。
  • 用途: 了解巴西人群的遗传多样性和特有的遗传变异。

GME

  • 数据来源: 中东基因组数据库(http://igm.ucsd.edu/gme/index.php)
  • 内容: 中东地区的常见和罕见变异数据。
  • 用途: 用于研究中东人群的遗传病和人群遗传学。

仅列出部分,非全部。当然也可以自定义数据库,更多信息见:https://annovar.openbioinformatics.org/en/latest/user-guide/gene/#create-your-own-gene-definition-databases-for-non-human-species

3结果查看

挑一个位点查看其vcf文件信息

代码语言:javascript复制
$cat homo_test.filter.vcf |sed -n "3402p;3428p"
#CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO    FORMAT 
chr1    1334174 .       T       C       6876.73 PASS    AC=6;AF=1.00;AN=6;DP=253;ExcessHet=3.0103;FS=0.000;MLEAC=6;MLEAF=1.00;MQ=60.00;QD=27.84;SOR=0.895       GT:AD:DP:GQ:PL  

联合注释结果

查看其联合注释结果 xxx_multianno.txt 文件

代码语言:javascript复制

$cat annovar_test.hg38_multianno.txt|grep -w 1334174

chr1    1334174 1334174 T       C       exonic  TAS1R3  .       nonsynonymous SNV       TAS1R3:NM_152228:exon6:c.T2269C:p.C757R 1p36.33 0.9613  0.9873  0.988   0.9128  0.9366  0.9721    0.9321  0.9239  rs307377        1.0     0.010   T       1.0     0.012   T       0.0     0.029   B       0.0     0.014   B       0.048   0.233   N       1       0.090   P-2.125   0.001   N       -2.22   0.870   D       4.08    0.001   N       0.028   0.006   -0.948  0.413   T       0.000   0.000   T       0.000   0.000   T       .       .       .0.134    0.368   .       .       .       .       .       .       0.292   0.092   T       0.088   0.381   T       -0.489  0.007   T       -0.368  0.372   T       0.003   0.000   T0.218    0.028   T       .;      .;      0.468   0.088   6.166   0.506   0.044   0.083   0.143   N       0.024   0.015   N       -1.491  0.019   -1.411  0.031   1.000   0.463   0.421     0.064   0       .       .       4.59    -0.839  0.102   0.360   0.200   -0.238  0.086   0.075   0.222   0.102   0.195   1.084   0.015   GPCR family 3, C-terminal|GPCR family 3, C-terminal       DVL1|ANKRD65|TAS1R3|ANKRD65|TAS1R3|INTS11|INTS11|TAS1R3|ANKRD65|ANKRD65|C1QTNF12|MXRA8|ANKRD65|ANKRD65|MXRA8|ANKRD65|ANKRD65|SCNN1D|DVL1|ANKRD65|ATAD3C|INTS11|ANKRD65|AL391244.1|ANKRD65|AL391244.2|ANKRD65|INTS11|TAS1R3|DVL1|TAS1R3    Adipose_Subcutaneous|Adipose_Subcutaneous|Artery_Aorta|Artery_Aorta|Artery_Tibial|Brain_Cerebellar_Hemisphere|Brain_Cerebellum|Brain_Cerebellum|Brain_Cortex|Brain_Frontal_Cortex_BA9|Cells_Cultured_fibroblasts|Colon_Sigmoid|Colon_Sigmoid|Colon_Transverse|Esophagus_Muscularis|Esophagus_Muscularis|Heart_Left_Ventricle|Nerve_Tibial|Nerve_Tibial|Nerve_Tibial|Nerve_Tibial|Ovary|Skin_Not_Sun_Exposed_Suprapubic|Skin_Not_Sun_Exposed_Suprapubic|Skin_Sun_Exposed_Lower_leg|Spleen|Spleen|Thyroid|Thyroid|Thyroid|Whole_Blood   exonic  TAS1R3  .       nonsynonymous SNV       TAS1R3:ENST00000339381.6:exon6:c.T2269C:p.C757R .       .       ...       1       6876.73 101     chr1    1334174 .       T       C       6876.73 PASS    AC=6;AF=1.00;AN=6;DP=253;ExcessHet=3.0103;FS=0.000;MLEAC=6;MLEAF=1.00;MQ=60.00;QD=27.84;SOR=0.895 GT:AD:DP:GQ:PL

由于没有列名,每一列的内容不太方便查看,我们可以去看注释后的 multianno.vcf 文件

取出位点注释后的信息,

代码语言:javascript复制
$cat annovar_test.hg38_multianno.vcf |grep -w 1334174

chr1    1334174 .       T       C       6876.73 PASS    AC=6;AF=1.00;AN=6;DP=253;ExcessHet=3.0103;FS=0.000;MLEAC=6;MLEAF=1.00;MQ=60.00;QD=27.84;SOR=0.895;ANNOVAR_DATE=2020-06-08;Func.refGene=exonic;Gene.refGene=TAS1R3;GeneDetail.refGene=.;ExonicFunc.refGene=nonsynonymous_SNV;AAChange.refGene=TAS1R3:NM_152228:exon6:c.T2269C:p.C757R;cytoBand=1p36.33;ExAC_ALL=0.9613;ExAC_AFR=0.9873;ExAC_AMR=0.988;ExAC_EAS=0.9128;ExAC_FIN=0.9366;ExAC_NFE=0.9721;ExAC_OTH=0.9321;ExAC_SAS=0.9239;avsnp150=rs307377;SIFT_score=1.0;SIFT_converted_rankscore=0.010;SIFT_pred=T;SIFT4G_score=1.0;SIFT4G_converted_rankscore=0.012;SIFT4G_pred=T;Polyphen2_HDIV_score=0.0;Polyphen2_HDIV_rankscore=0.029;Polyphen2_HDIV_pred=B;Polyphen2_HVAR_score=0.0;Polyphen2_HVAR_rankscore=0.014;Polyphen2_HVAR_pred=B;LRT_score=0.048;LRT_converted_rankscore=0.233;LRT_pred=N;MutationTaster_score=1;MutationTaster_converted_rankscore=0.090;MutationTaster_pred=P;MutationAssessor_score=-2.125;MutationAssessor_rankscore=0.001;MutationAssessor_pred=N;FATHMM_score=-2.22;FATHMM_converted_rankscore=0.870;FATHMM_pred=D;PROVEAN_score=4.08;PROVEAN_converted_rankscore=0.001;PROVEAN_pred=N;VEST4_score=0.028;VEST4_rankscore=0.006;MetaSVM_score=-0.948;MetaSVM_rankscore=0.413;MetaSVM_pred=T;MetaLR_score=0.000;MetaLR_rankscore=0.000;MetaLR_pred=T;MetaRNN_score=0.000;MetaRNN_rankscore=0.000;MetaRNN_pred=T;M-CAP_score=.;M-CAP_rankscore=.;M-CAP_pred=.;REVEL_score=0.134;REVEL_rankscore=0.368;MutPred_score=.;MutPred_rankscore=.;MVP_score=.;MVP_rankscore=.;MPC_score=.;MPC_rankscore=.;PrimateAI_score=0.292;PrimateAI_rankscore=0.092;PrimateAI_pred=T;DEOGEN2_score=0.088;DEOGEN2_rankscore=0.381;DEOGEN2_pred=T;BayesDel_addAF_score=-0.489;BayesDel_addAF_rankscore=0.007;BayesDel_addAF_pred=T;BayesDel_noAF_score=-0.368;BayesDel_noAF_rankscore=0.372;BayesDel_noAF_pred=T;ClinPred_score=0.003;ClinPred_rankscore=0.000;ClinPred_pred=T;LIST-S2_score=0.218;LIST-S2_rankscore=0.028;LIST-S2_pred=T;Aloft_pred=.x3b;Aloft_Confidence=.x3b;CADD_raw=0.468;CADD_raw_rankscore=0.088;CADD_phred=6.166;DANN_score=0.506;DANN_rankscore=0.044;fathmm-MKL_coding_score=0.083;fathmm-MKL_coding_rankscore=0.143;fathmm-MKL_coding_pred=N;fathmm-XF_coding_score=0.024;fathmm-XF_coding_rankscore=0.015;fathmm-XF_coding_pred=N;Eigen-raw_coding=-1.491;Eigen-raw_coding_rankscore=0.019;Eigen-PC-raw_coding=-1.411;Eigen-PC-raw_coding_rankscore=0.031;GenoCanyon_score=1.000;GenoCanyon_rankscore=0.463;integrated_fitCons_score=0.421;integrated_fitCons_rankscore=0.064;integrated_confidence_value=0;LINSIGHT=.;LINSIGHT_rankscore=.;GERP  _NR=4.59;GERP  _RS=-0.839;GERP  _RS_rankscore=0.102;phyloP100way_vertebrate=0.360;phyloP100way_vertebrate_rankscore=0.200;phyloP30way_mammalian=-0.238;phyloP30way_mammalian_rankscore=0.086;phastCons100way_vertebrate=0.075;phastCons100way_vertebrate_rankscore=0.222;phastCons30way_mammalian=0.102;phastCons30way_mammalian_rankscore=0.195;SiPhy_29way_logOdds=1.084;SiPhy_29way_logOdds_rankscore=0.015;Interpro_domain=GPCR_family_3,_C-terminal|GPCR_family_3,_C-terminal;GTEx_V8_gene=DVL1|ANKRD65|TAS1R3|ANKRD65|TAS1R3|INTS11|INTS11|TAS1R3|ANKRD65|ANKRD65|C1QTNF12|MXRA8|ANKRD65|ANKRD65|MXRA8|ANKRD65|ANKRD65|SCNN1D|DVL1|ANKRD65|ATAD3C|INTS11|ANKRD65|AL391244.1|ANKRD65|AL391244.2|ANKRD65|INTS11|TAS1R3|DVL1|TAS1R3;GTEx_V8_tissue=Adipose_Subcutaneous|Adipose_Subcutaneous|Artery_Aorta|Artery_Aorta|Artery_Tibial|Brain_Cerebellar_Hemisphere|Brain_Cerebellum|Brain_Cerebellum|Brain_Cortex|Brain_Frontal_Cortex_BA9|Cells_Cultured_fibroblasts|Colon_Sigmoid|Colon_Sigmoid|Colon_Transverse|Esophagus_Muscularis|Esophagus_Muscularis|Heart_Left_Ventricle|Nerve_Tibial|Nerve_Tibial|Nerve_Tibial|Nerve_Tibial|Ovary|Skin_Not_Sun_Exposed_Suprapubic|Skin_Not_Sun_Exposed_Suprapubic|Skin_Sun_Exposed_Lower_leg|Spleen|Spleen|Thyroid|Thyroid|Thyroid|Whole_Blood;Func.knownGene=exonic;Gene.knownGene=TAS1R3;GeneDetail.knownGene=.;ExonicFunc.knownGene=nonsynonymous_SNV;AAChange.knownGene=TAS1R3:ENST00000339381.6:exon6:c.T2269C:p.C757R;CLNALLELEID=.;CLNDN=.;CLNDISDB=.;CLNREVSTAT=.;CLNSIG=.;ALLELE_END GT:AD:DP:GQ:PL

转换为更易读的显示

代码语言:javascript复制
$cat annovar_test.hg38_multianno.vcf |grep -w 1334174|cut -f 8|cut -d ";" -f 12-|tr ";" "n"

ANNOVAR_DATE=2020-06-08
Func.refGene=exonic
Gene.refGene=TAS1R3
GeneDetail.refGene=.
ExonicFunc.refGene=nonsynonymous_SNV
AAChange.refGene=TAS1R3:NM_152228:exon6:c.T2269C:p.C757R
cytoBand=1p36.33
ExAC_ALL=0.9613
ExAC_AFR=0.9873
ExAC_AMR=0.988
ExAC_EAS=0.9128
ExAC_FIN=0.9366
ExAC_NFE=0.9721
ExAC_OTH=0.9321
ExAC_SAS=0.9239
avsnp150=rs307377
SIFT_score=1.0
SIFT_converted_rankscore=0.010
SIFT_pred=T
SIFT4G_score=1.0
SIFT4G_converted_rankscore=0.012
SIFT4G_pred=T
Polyphen2_HDIV_score=0.0
Polyphen2_HDIV_rankscore=0.029
Polyphen2_HDIV_pred=B
Polyphen2_HVAR_score=0.0
Polyphen2_HVAR_rankscore=0.014
Polyphen2_HVAR_pred=B
LRT_score=0.048
LRT_converted_rankscore=0.233
LRT_pred=N
MutationTaster_score=1
MutationTaster_converted_rankscore=0.090
MutationTaster_pred=P
MutationAssessor_score=-2.125
MutationAssessor_rankscore=0.001
MutationAssessor_pred=N
FATHMM_score=-2.22
FATHMM_converted_rankscore=0.870
FATHMM_pred=D
PROVEAN_score=4.08
PROVEAN_converted_rankscore=0.001
PROVEAN_pred=N
VEST4_score=0.028
VEST4_rankscore=0.006
MetaSVM_score=-0.948
MetaSVM_rankscore=0.413
MetaSVM_pred=T
MetaLR_score=0.000
MetaLR_rankscore=0.000
MetaLR_pred=T
MetaRNN_score=0.000
MetaRNN_rankscore=0.000
MetaRNN_pred=T
M-CAP_score=.
M-CAP_rankscore=.
M-CAP_pred=.
REVEL_score=0.134
REVEL_rankscore=0.368
MutPred_score=.
MutPred_rankscore=.
MVP_score=.
MVP_rankscore=.
MPC_score=.
MPC_rankscore=.
PrimateAI_score=0.292
PrimateAI_rankscore=0.092
PrimateAI_pred=T
DEOGEN2_score=0.088
DEOGEN2_rankscore=0.381
DEOGEN2_pred=T
BayesDel_addAF_score=-0.489
BayesDel_addAF_rankscore=0.007
BayesDel_addAF_pred=T
BayesDel_noAF_score=-0.368
BayesDel_noAF_rankscore=0.372
BayesDel_noAF_pred=T
ClinPred_score=0.003
ClinPred_rankscore=0.000
ClinPred_pred=T
LIST-S2_score=0.218
LIST-S2_rankscore=0.028
LIST-S2_pred=T
Aloft_pred=.x3b
Aloft_Confidence=.x3b
CADD_raw=0.468
CADD_raw_rankscore=0.088
CADD_phred=6.166
DANN_score=0.506
DANN_rankscore=0.044
fathmm-MKL_coding_score=0.083
fathmm-MKL_coding_rankscore=0.143
fathmm-MKL_coding_pred=N
fathmm-XF_coding_score=0.024
fathmm-XF_coding_rankscore=0.015
fathmm-XF_coding_pred=N
Eigen-raw_coding=-1.491
Eigen-raw_coding_rankscore=0.019
Eigen-PC-raw_coding=-1.411
Eigen-PC-raw_coding_rankscore=0.031
GenoCanyon_score=1.000
GenoCanyon_rankscore=0.463
integrated_fitCons_score=0.421
integrated_fitCons_rankscore=0.064
integrated_confidence_value=0
LINSIGHT=.
LINSIGHT_rankscore=.
GERP  _NR=4.59
GERP  _RS=-0.839
GERP  _RS_rankscore=0.102
phyloP100way_vertebrate=0.360
phyloP100way_vertebrate_rankscore=0.200
phyloP30way_mammalian=-0.238
phyloP30way_mammalian_rankscore=0.086
phastCons100way_vertebrate=0.075
phastCons100way_vertebrate_rankscore=0.222
phastCons30way_mammalian=0.102
phastCons30way_mammalian_rankscore=0.195
SiPhy_29way_logOdds=1.084
SiPhy_29way_logOdds_rankscore=0.015
Interpro_domain=GPCR_family_3,_C-terminal|GPCR_family_3,_C-terminal
GTEx_V8_gene=DVL1|ANKRD65|TAS1R3|ANKRD65|TAS1R3|INTS11|INTS11|TAS1R3|ANKRD65|ANKRD65|C1QTNF12|MXRA8|ANKRD65|ANKRD65|MXRA8|ANKRD65|ANKRD65|SCNN1D|DVL1|ANKRD65|ATAD3C|INTS11|ANKRD65|AL391244.1|ANKRD65|AL391244.2|ANKRD65|INTS11|TAS1R3|DVL1|TAS1R3
GTEx_V8_tissue=Adipose_Subcutaneous|Adipose_Subcutaneous|Artery_Aorta|Artery_Aorta|Artery_Tibial|Brain_Cerebellar_Hemisphere|Brain_Cerebellum|Brain_Cerebellum|Brain_Cortex|Brain_Frontal_Cortex_BA9|Cells_Cultured_fibroblasts|Colon_Sigmoid|Colon_Sigmoid|Colon_Transverse|Esophagus_Muscularis|Esophagus_Muscularis|Heart_Left_Ventricle|Nerve_Tibial|Nerve_Tibial|Nerve_Tibial|Nerve_Tibial|Ovary|Skin_Not_Sun_Exposed_Suprapubic|Skin_Not_Sun_Exposed_Suprapubic|Skin_Sun_Exposed_Lower_leg|Spleen|Spleen|Thyroid|Thyroid|Thyroid|Whole_Blood
Func.knownGene=exonic
Gene.knownGene=TAS1R3
GeneDetail.knownGene=.
ExonicFunc.knownGene=nonsynonymous_SNV
AAChange.knownGene=TAS1R3:ENST00000339381.6:exon6:c.T2269C:p.C757R
CLNALLELEID=.
CLNDN=.
CLNDISDB=.
CLNREVSTAT=.
CLNSIG=.
ALLELE_END

从例子中可以得到位点的详细注释信息:

变异信息

  • 功能影响 (Func.refGene): exonic (变异位于外显子区域)
  • 基因名称 (Gene.refGene): TAS1R3 (变异发生在TAS1R3基因上)
  • 变异类型 (ExonicFunc.refGene): nonsynonymous_SNV (非同义单核苷酸变异,即该变异会改变编码的氨基酸)
  • 氨基酸改变 (AAChange.refGene): TAS1R1:NM_152228:exon6:c.T2269C:p.C757R (变异导致蛋白质在第757位由赖氨酸变为精氨酸)

人群频率信息

  • ExAC数据库中的频率:
    • ExAC_ALL=0.9613 (所有人群中的频率)
    • 其他子人群数据显示非洲、美洲、东亚、芬兰、非芬兰欧洲和南亚等人群的频率。

功能预测工具的评分和预测

  • SIFT: SIFT_score=1.0, SIFT_pred=T (表示变异被预测为耐受)
  • PolyPhen-2: Polyphen2_HDIV_score=0.0, Polyphen2_HDIV_pred=B (表示变异被预测为良性)
  • MutationTaster: MutationTaster_score=1, MutationTaster_pred=P (预测为可能有害)
  • MutationAssessor: MutationAssessor_score=-2.125, MutationAssessor_pred=N (预测为中性)
  • FATHMM: FATHMM_score=-2.22, FATHMM_pred=D (预测为有害)

进化保守性和基因功能

  • CADD: CADD_phred=6.166 (提供了变异的可能致病性的预测)
  • GERP : GERP _RS=-0.839 (相对较低的进化保守性分数)
  • phyloP 和 phastCons 提供了其他进化保守性的评分。

其他数据库和信息

  • ClinVar: 此位点相关的ClinVar记录不详
  • COSMIC: cosmic70 (如果有值,则提供癌症相关突变信息)
  • GTEx V8相关的表达信息,指出该基因在多种组织中的表达情况
  • 其他: 包括其他多种工具和数据库的评分及预测,如MetaSVM、MetaLR、M-CAP等。

基于基因的注释

使用 annotate_variation.pl 基于refGene数据库的注释结果

代码语言:javascript复制
$cat homo_test.avinput.variant_function |grep 1334174
exonic  TAS1R3  chr1    1334174 1334174 T       C       1       6876.73 101     chr1    1334174 .       T       C       6876.73 PASS    AC=6;AF=1.00;AN=6;DP=253;ExcessHet=3.0103;FS=0.000;MLEAC=6;MLEAF=1.00;MQ=60.00;QD=27.84;SOR=0.895 GT:AD:DP:GQ:PL 

$cat homo_test.avinput.exonic_variant_function |grep 1334174
line26  nonsynonymous SNV       TAS1R3:NM_152228:exon6:c.T2269C:p.C757R,        chr1    1334174 1334174 T       C       1       6876.73 101     chr1    1334174 .       T       C6876.73  PASS    AC=6;AF=1.00;AN=6;DP=253;ExcessHet=3.0103;FS=0.000;MLEAC=6;MLEAF=1.00;MQ=60.00;QD=27.84;SOR=0.895       GT:AD:DP:GQ:PL  

同以上联合注释结果,不再详述。

更多用法,详见:https://annovar.openbioinformatics.org/en/latest/

1 人点赞