各位科研芝士的朋友,大家好,今天我们继续分享关于TCGA数据下载的专题,如果把TCGA比作一座山,聪明的科研工作者,便可以开发出无数有效的翻山越岭的工具,今天,我们同样的比对着之前的网页版工具,来看看又有什么好工具来值得开发?
之前,岛主给大家推荐了Fire Browse工具,进行数据下载:零代码下载TCGA数据库第四期:Fire Browse工具,那么Fire Browse有没有对应的R语言工具包呢?这个时候怎末办呢?
别急,我们直接上网页去看有没有R包。
甩出网址链接:http://firebrowse.org/
Fire Browse
点击WEB API,便可以看到这样的界面:
我们看到它不仅提供了R接口,还提供了python接口,自然我们今天主要是介绍R语言处理该数据,点击进去,如下:
Github地址:https://github.com/mariodeng/FirebrowseR
所以今天的主角便是FirebrowseR工具包。
下面开启你的R界面,学习该包:
1. FirebrowseR安装有些不同,首先要先安装devtools包:
接着再去安装FirebrowseR,安装命令如下:
2. 加载该包:
OK,可以看到没有任何问题,这也表明,我们安装成功该工具包
3. 查看存在哪些数据集,命令如下:
结果如下:
分别代表TCGA癌症的简称和癌症的描述。Firebrowse一共存在38个癌症数据集。
4. 这里我们以肺癌为列,名称为Lung adenocarcinoma。
可以看到在TCGA的简称为LUAD
5. 写个函数来下载临床数据,这里提醒一点,在下载表达数据的时候,最后先下载临床数据:
一个while循环下载相应的临床数据,借助的函数为Samples.Clinical 函数,该函数需要输入四个参数,format这里选择了csv格式文件,cohort参数代表需要下载的癌症简写,这里为LUAD,page_size默认为150,z一般使用默认值即可,page代表下载的当前页码。
结果文件如下:
6. 同样写个函数来下载特定基因的表达数据:
首先定义好我们感兴趣的基因,这里随意选择了三个基因,分别为ESR1,GATA3,XBP1,接着同样的一个while循环下载数据,注意一点我们在给Sample.mRNASeq输入参数的时候,需要用到luad.Pats这个对象,因此建议大家先下载临床信息,在下载特定的基因表达信息。
7. 表达信息合并整理:
结果如下:
Sample type这一列women看到,两种类型,NT和TP,其中NT为癌, TP为癌旁,这个时候你的表达信息也就下载好了
8. 可视化一下,如下:
结果如下:
这样你就可以看到自己感兴趣的基因在不同样本里表达信息。