“医学和生信笔记,专注R语言在临床医学中的使用、R语言数据分析和可视化。主要分享R语言做医学统计学、临床研究设计、meta分析、网络药理学、临床预测模型、机器学习、生物信息学等。
这篇推文适合初学者看,大佬酌情阅读!不过这个方法确实挺不错的!
从打开网址开始教你一步一步的下载TCGA的数据,图文并茂,真的是详细的不能再详细了!
如果你看完了这篇还不会下载TCGA的数据,那不是你疯就是我疯!
对于初学者来说最难的部分不是下载,最难的主要有两个部分,第一个是下载时遇到的网络问题!其次是下载后的表达矩阵整理!
我为什么说最适合初学者,主要原因是:使用这个方法下载数据后,只要2行代码即可完成表达矩阵的整理,同时包括了count/fpkm/tmp 3种类型,自带gene symbol,并且自带详细的临床数据,不需要另外下载临床数据!
即使你的r语言不够熟练,依然能够顺利完成!
在下载TCGA数据之前,你可能需要一些背景知识,比如TCGA的33癌症简称和英文名,拷贝数变异、单核苷酸多态性、甲基化等的英文,建议自己百度下哦~
下面正式开始:
首先你要到这个网址:https://portal.gdc.cancer.gov/,进入下面这个界面,如果你打不开这个页面,那你的下载大概率也会有问题的,因为这个对网络有要求!
打开这个页面后,你需要选择你想要下载的东西,这个数据库下载东西逻辑是很清晰的,比如你想要下载TCGA的直肠癌的常规转录组的mRNA数据,首先你要点击Repository
,下面箭头指的两个地方,任意点一个就行,都是一样的:
点完了之后会进入到这个界面:
这里你只要关注左侧这一栏的东西就好了,你现在的需求是下载TCGA的直肠癌的常规转录组的mRNA数据,所以你需要先找到TCGA的直肠癌,点击Cases。
重点来了!!!这里是决定你能不能用2行代码整理表达矩阵的关键!!
有的教程会让你在Primary Site中找到直肠癌,勾选它,像下图这样,但我建议你直接跳过这一步!!!
但是我建议你跳过上面这一步!!直接在Project
里面选中TCGA-READ
即可,不要在Primary Site
中勾选任何东西!!
这样Cases这边的选项就选好了,其他东西就不用选了,比如Disease Type/Gender/Age at Diagnosis等等。
下一步就是到Files里面选择数据类型,你想要的转录组的的mRNA数据,所以先点击Files,然后在下面的Data Category里面选择transcriptome profiling,在Data Type里面选择Gene Expression Quantification:
OK,到这里你就选择好你想要的数据了:TCGA的直肠癌的常规转录组的mRNA数据,其他的都不用选了,你可以看到一共177个文件!
下一步,把你的所有数据添加到购物车,也就是点击右侧Add All Files to Cart,点完之后你的右上角购物车会出现数字,就像下面这样:
加入购物车之后,点击Cart,进入下面的下载界面,这个界面内容很多,比如167个cases,177个files,747.58M,还有各种下载选项,都给你标出来了。
此时,你点击Download,下面会出现Manifest和Cart的选项。
你如果选择Cart,会下载一个压缩包,里面就是你选择好的177个文件。
点击Cart会下载下图中标号1的文件,解压后得到标号2的文件,把2继续解压,就得到标号为3的文件夹:
打开这个文件夹,里面就是你的178个文件,因为多了一个Manifest文件。
如果你的网络不错,直接下载Cart其实是非常简单的方法,比如我这里177个文件,700多M,不到10分钟就下载完了!
下载完成后你如果需要手扒代码(初学者不推荐)整理成表达矩阵,那你还需要点击Metadata,下载一个metadata文件!
这个metadata是json格式的,里面记录着文件名和样本名的对应关系,手扒代码整理成表达矩阵需要这个文件,而我介绍的黑科技方法不需要这个文件!
如果你选择了Manifest,那么会下载一个manifest文件(这个文件内容和上面通过cart方式下载得到的MANIFEST文件内容完全一样):
这个文件里面包含了你选择好的177个文件的信息,有了它,你就可以用GDC官方推荐的gdc client工具下载了,后面我们会说怎么用这个文件进行下载。
除此之外,你还可以在这个界面下载临床信息,点击Clinical,下载TSV格式的临床数据。我介绍的黑科技方法也不需要这一步!
其他的数据用处不大,可以不用下载。
下面说说如何用GDC官方推荐的gdc client工具进行下载。
首先,需要到gdc client
的下载地址:https://gdc.cancer.gov/access-data/gdc-data-transfer-tool,下载这个软件,往下拉即可看到各个平台的版本:
左边的是命令行版本,右边是图形化界面,可以用鼠标点点点的那种!
我先给大家演示下点点点的版本,适合不会写代码的人!根据你的系统,下载合适的版本,比如我是Windows,我就下载了下面这个:
然后解压它,安装它,打开它,就会出现下面这个界面:
点击那个Select Manifest File,会让你选择你的manifest文件,也就是上一步下载的那个,选好之后会出现下面的界面:
稍等片刻,如果你的网络没问题就会变成下面这个界面,然后你点击右下角的Download就可以下载了(下载前你可以先设置下,见下一张图),下载过程会告诉你一共多少几个,下载中几个,失败几个,停止几个,完成几个等,非常清晰明了:
下载前可以先进行一些设置:比如更改你的保存路径,每次下载的大小,自动重连的次数等等,改好之后记得点击Save Settings:
都设置好之后,点击Download即可愉快的下载了!
如果有失败的,会在下面显示,直接选中继续下载即可:
下载完之后也是177个文件:
这个方法本质上和命令行版本的gdc client没有区别!
这个点点点的图形化界面真的太香了,这不比命令行版本的gdc client香多了么!Windows下还要命令行下载那么复杂的东西干啥??
根据这个教程下载后,可以无缝衔接另一篇教程:只要2行代码即可整理成表达矩阵!
作为下载TCGA数据和提取表达矩阵之间的过渡,我建议你也看下这篇推文:TCGA官网下载的文件数量竟然和TCGAbiolinks不一致!
我觉得这个下载方法 表达矩阵提取方法对初学者是比较友好的,省掉了很多复杂的r语言操作!
TCGA的教程未完待续,后面我们也会说说怎么用gdc client的命令行进行下载,以及如何手扒代码整理成表达矩阵!
万里长城第一步,这才开始!