1000 Genome Project 的目标是发现在人群中频率大于1%的变异位点,对来自不同人群的大量样本进行测序,识别到了许多的变异位点,为人类遗传变异的研究提供了一个综合的资源。
整个项目划分为四个阶段,试点阶段和三个主要阶段,主要阶段中只有第一阶段和第三阶段产生了数据,每个阶段数据的详细情况如下图所示
整个项目从2008年开始到2013年结束,最终的版本为2013年5月2日发布的数据, 包含了来自26个人群,共2504个样本的SNP分型结果。1000G的数据是免费公开的,可以通过ftp下载得到,网址如下
ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/
26个不同的群体,用3个字母的缩写表示,具体情况如下
Code | Des | Detail |
---|---|---|
CHB | Han Chinese | Han Chinese in Beijing, China |
JPT | Japanese | Japanese in Tokyo, Japan |
CHS | Southern Han Chinese | Han Chinese South |
CDX | Dai Chinese | Chinese Dai in Xishuangbanna, China |
KHV | Kinh Vietnamese | Kinh in Ho Chi Minh City, Vietnam |
CHD | Denver Chinese | Chinese in Denver, Colorado (pilot 3 only) |
CEU | CEPH | Utah residents (CEPH) with Northern and Western European ancestry |
TSI | Tuscan | Toscani in Italia |
GBR | British | British in England and Scotland |
FIN | Finnish | Finnish in Finland |
IBS | Spanish | Iberian populations in Spain |
YRI | Yoruba | Yoruba in Ibadan, Nigeria |
LWK | Luhya | Luhya in Webuye, Kenya |
GWD | Gambian | Gambian in Western Division, The Gambia |
MSL | Mende | Mende in Sierra Leone |
ESN | Esan | Esan in Nigeria |
ASW | African-American SW | African Ancestry in Southwest US |
ACB | African-Caribbean | African Caribbean in Barbados |
MXL | Mexican-American | Mexican Ancestry in Los Angeles, California |
PUR | Puerto Rican | Puerto Rican in Puerto Rico |
CLM | Colombian | Colombian in Medellin, Colombia |
PEL | Peruvian | Peruvian in Lima, Peru |
GIH | Gujarati | Gujarati Indian in Houston, TX |
PJL | Punjabi | Punjabi in Lahore, Pakistan |
BEB | Bengali | Bengali in Bangladesh |
STU | Sri Lankan | Sri Lankan Tamil in the UK |
ITU | Indian | Indian Telugu in the UK |
对于这26个群体,归属于5个不同的super population
Population Code | Description |
---|---|
EAS | East Asian |
SAS | South Asian |
AFR | African |
EUR | European |
AMR | American |
除了通过FTP直接下载以外,还可以通过以下两种方式下载:
1. Aspera
由于1000G的数据量比较大,通常通过Aspera 进行下载,命令如下
ascp -i bin/aspera/etc/asperaweb_id_dsa.openssh -Tr -Q -l 100M -P33001 -L- fasp-g1k@fasp.1000genomes.ebi.ac.uk:vol1/ftp/release/20100804/ALL.2of4intersection.20100804.genotypes.vcf.gz ./
2. Globus
Globus 是一个软件,通过这个软件可以方便的管理和分发数据,官网如下:
https://www.globus.org/
首先需要注册一个账号,然后要下载软件才可以使用,和百度网盘的使用体验类似。
通常情况下使用Aspera
就可以了。
1000G和hapmap都是对不同人群大量样本测试,然后鉴定变异位点。和hapmap相比,1000G无论是样本数量,还是变异位点的数量,都更具优势,所以使用1000G的科研工作者更多。随着hapmap官网的关闭,1000G完全取代了hapmap。
1000G中发现的SNP位点信息都提交到了dbSNP数据库,SV结构变异位点信息都提交到了DGVA数据库。