TCGA的28篇教程- 数据下载就到此为止吧

2018-07-27 09:51:08 浏览数 (1)

长期更新列表: 使用R语言的cgdsr包获取TCGA数据(cBioPortal)TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)TCGA的28篇教程- 使用R语言的RTCGAToolbox包获取TCGA数据 (FireBrowse portal) TCGA的28篇教程- 批量下载TCGA所有数据 ( UCSC的 XENA)

因为TCGA是一个史无前例的癌症研究项目,值得介绍的东西太多,不能在下载这个基础环境耽误太多的功夫,下载渠道再多,也只需要一个好用的即可!

我以前在生信技能树论坛也写过 TCGA数据下载合集:

也不想在费口舌重复介绍。

下面就简单罗列几个还算是比较流行的TCGA下载器吧:

GDC官方下载工具

GDC给出了一系列的用户友好的选择框,你只需要根据条条框框来选择就可以下载到自己想要的数据,而不需要去几百个文件夹里面漫无目的的查找了。 https://gdc-portal.nci.nih.gov/legacy-archive/search/f 根据自定义搜索过滤条件拿到了 mainfest 文件就可以啦。

GDC客户端的说明书是:https://docs.gdc.cancer.gov/Data ... de/Getting_Started/ 傻瓜式软件,非常简单! 一般人只需要根据你搜索过滤得到的mainfest进行GDC下载数据即可,下载下来的文件,是每个样本一个文件夹,需要合并,需要了解为什么用XML来存储信息

TCGA-assembler 2

发表于 Bioinformatics, May 2018 ,https://doi.org/10.1093/bioinformatics/btx812 据作者自己说是广受好评,帮助了超过 2000 researchers from 64 countries 的科学家,所以才出第二版!

源代码及其使用教程都在:https://github.com/compgenome365/TCGA-Assembler-2

TCGA计划在2016年6月就停止招募病人了,官方数据存放地址是:Genomic Data Commons (GDC, https://gdc.cancer.gov/) 但是有新的蛋白质组学数据出来,存放在 Clinical Proteomic Tumor Analysis Consortium (CPTAC) , 该蛋白质组学使用的主要是 isobaric Tags for Relative and Absolute Quantification (iTRAQ) 这个质谱技术。

也就是说,使用可以很方便的获取包括:

  • gene expression
  • miRNA expression
  • DNA copy number
  • DNA methylation
  • somatic mutation
  • RPPA (Reverse Phase Protein Array) protein expression
  • iTRAQ protein expression (from CPTAC), and clinical and biospecimen information

进入其GitHub看代码,很容易明白其实就是几个R脚本,详细教程也在里面:TCGA-Assembler-2/TCGA-Assembler/Tutorial.pdf

总体来说,下载不同的数据,有着不同的下载函数,而且每个函数有着差不多的参数,通常是需要病人的ID以及下载路径等等。

同时也可以下载多组学数据。

TCGA2STAT

发表于 Bioinformatics, March 2016,https://doi.org/10.1093/bioinformatics/btv677 之所以注意到这个工具,是因为它里面列举了比较详细的肿瘤类型以及各个组学数据缺失情况。

同样,也是基于R的。

代码举例如下:

代码语言:javascript复制
# Part I: Download NGS expression and methylation data for LUSC

methyl <- getTCGA(disease=“LUSC”, data.type=“Methylation”)
rnaseq2 <- getTCGA(disease=“LUSC”, data.type=“RNASeq2”, clinical=TRUE)
met.var <- apply(methyl$dat, met.var >=
quantile(met.var, 0.99, na.rm=T)&!is.na(met.var))
rnaseq2.var <- apply(log10(1 rnaseq2$dat), 1,var)rnaseq2.var >=
quantile(rnaseq2.var, 0.99, na.rm=T) &!is.na(rnaseq2.var))

# Part II: Merge the two data types for integrated analysis
met.rnaseq2 <- OMICSBind(dat1 = rnaseq.data, dat2= met.data)

# Part III: Perform CCA on merged data, X and Y
lusc.cc <- rcc(t(met.rnaseq2$X), t(met.rnaseq2$Y), 0.75025, 0.5005)

点击进入这篇文章的附件,值得下载打印背诵,相信我!

GDCRNATools

发表于 Bioinformatics, March 2018 , https://doi.org/10.1093/bioinformatics/bty124 下载TCGA数据只是其中一个功能而已,它其实是 an R/Bioconductor package for integrative analysis of lncRNA, miRNA and mRNA data in GDC

更重要的是,该R包是我们生信技能树的VIP成员开发的,于今年6月在美帝博士毕业!

我会邀请他亲自来写该R包的教程!

Clusternomics

主要是TCGA肿瘤数据联合分析如基因表达,拷贝数,甲基化变化

同样的,这些网页工具也是大把,如果介绍它们的用法,那就不是我们生信工程师的风格了:

如果你实在有需要,请自行前往微信搜索咯。

关键词都给你啦!

0 人点赞