从今天开始,小陈会结合已发表的全外显子组研究(whole-exome study, WES)带领大家学习一下GWAS。可能有朋友会问,WES和GWAS是一回事儿吗?
从研究流程上来看,两者是一回事儿,但是从研究的内容来说它俩还不太一样,GWAS主要是研究全基因组上的SNP(包含内含子和外显子)和疾病的关联,而WES则利用外显子捕捉技术检测大量错义突变,进而研究外显子和疾病的关联。一般来说,由于WES直接研究错义突变,因此具有更加直接的生物学意义,临床上应用也更为广泛。
近期,浙江大学团队利用WES技术鉴定出和吸烟年龄密切相关的位点(PMID: 29216386),并且他们公开了1619人的WES数据(包含原始测序数据!),大家可以在GEO数据库里下载(ID号为GSE148812,链接为https://pubmed.ncbi.nlm.nih.gov/29216386/)。
打开链接后如下图所示:
接着拉到最底下,将“Download family”里的SOFT文件和”Supplementary file”里的genotyping文件下载下来(如下图所示,均为标红的)。另外,大家可以点击“custom”,把前两个原始的idat数据下载下来,咱们了解一下illumina的原始测序数据是啥样的。
今天我先带大家看看原始测序结果:
我们需要下载”illunimaio”包用于读取idat数据
代码语言:javascript复制setwd("C:/GWAS/TestData") # 设置好工作路径,idat数据存储于其中
BiocManager::install("illuminaio")# 安装R包
library(illuminaio) # 加载illuminaio包
myfile <- list.files() # 列出工作目录下的所有文件
myfile
这里我们看到文件名有Grn和Red两种,其实是两种激光,前者是绿色激光(激发G/T碱基),后者是红色激光(激发A/C碱基),通过荧光的强弱我们即可确定该位置上是何碱基了。
代码语言:javascript复制myfile <- myfile[grep(myfile, pattern =".idat$")] #获取以idat结尾的文件名
idat <- lapply(myfile, function(x){readIDAT(x)}) # 循环读取idat文件(实际上只有2个)
myidat <- idat[[1]] # 选择第一个文件为例子
names(myidat) # 查看列名
这里面最重要的就是Quants信息了,它是存储了per-bead-type值,是定量的关键。
代码语言:javascript复制myidatData <- myidat$Quants # 提取Quants信息
head(myidatData) # 查看Quants信息
每一行代表的是一个SNP在该样本中的信息,Mean代表荧光的平均强度, SD是测量误差,而NBeads代表微珠数。
好了,关于illumina的原始测序数据就先讲到这儿,后面我会以这套数据带大家掌握GWAS的分析流程,谢谢支持!