clinvar 和 OMIM 数据库类似,都是存储了人类变异位点和表型之间的关系。网址如下:
https://www.ncbi.nlm.nih.gov/clinvar
clinvar是一个开放的数据库,每个研究机构都可以向其提交数据,对于提交的信息,会有专家团队进行审核评级。对于数据库中的位点,根据注释信息的可靠性,分成了1到4个不同的星级,星级越高,可信度越高。截至到2018年5月29日,数据库中所有记录统计如下
可以发现,在整个数据库中,3星和4星的变异位点是非常少的,最多的是1星的变异位点。
在该数据库中,提供了以下7种检索方式
- gene symbols
- HGVS expressions
- protein change
- rs number
- disease
- submitters
- location on a chromosome
以PTEN
这个gene symbol为例,检索出的部分记录如下:
对于每条记录,都会给出以下三种信息。
1. 基本注释
对于每条变异位点的记录,都有一个Variation ID
, 和对应的星级评分。
不同星级代表的含义如下:
2.Interpretation
这部分会给出突变位点的临床意义Clinical significance
, 和相关数据库的链接,这些数据库通常包含MedGen
, OMIM
, dbSNP
, PubMed
等。
3. Allele
这部分会给出allel
的详细信息,包括变异类型,HGVS
表达式等信息。
我们可以通过FTP服务,直接下载该数据库。链接如下
ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/
在ftp服务器上提供了多种格式,通常选择VCF下载即可,而且同时给出了hg19和hg38两个版本的vcf文件。