手把手教你用R语言下载TCGA数据库:FirebrowseR

2019-05-23 23:13:48 浏览数 (1)

各位科研芝士的朋友,大家好,今天我们继续分享关于TCGA数据下载的专题,如果把TCGA比作一座山,聪明的科研工作者,便可以开发出无数有效的翻山越岭的工具,今天,我们同样的比对着之前的网页版工具,来看看又有什么好工具来值得开发?

之前,岛主给大家推荐了Fire Browse工具,进行数据下载:零代码下载TCGA数据库第四期:Fire Browse工具,那么Fire Browse有没有对应的R语言工具包呢?这个时候怎末办呢?

别急,我们直接上网页去看有没有R包。

甩出网址链接:http://firebrowse.org/

Fire Browse

点击WEB API,便可以看到这样的界面:

我们看到它不仅提供了R接口,还提供了python接口,自然我们今天主要是介绍R语言处理该数据,点击进去,如下:

Github地址:https://github.com/mariodeng/FirebrowseR

所以今天的主角便是FirebrowseR工具包。

下面开启你的R界面,学习该包:

1. FirebrowseR安装有些不同,首先要先安装devtools包:

接着再去安装FirebrowseR,安装命令如下:

2. 加载该包:

OK,可以看到没有任何问题,这也表明,我们安装成功该工具包

3. 查看存在哪些数据集,命令如下:

结果如下:

分别代表TCGA癌症的简称和癌症的描述。Firebrowse一共存在38个癌症数据集。

4. 这里我们以肺癌为列,名称为Lung adenocarcinoma。

可以看到在TCGA的简称为LUAD

5. 写个函数来下载临床数据,这里提醒一点,在下载表达数据的时候,最后先下载临床数据:

一个while循环下载相应的临床数据,借助的函数为Samples.Clinical 函数,该函数需要输入四个参数,format这里选择了csv格式文件,cohort参数代表需要下载的癌症简写,这里为LUAD,page_size默认为150,z一般使用默认值即可,page代表下载的当前页码。

结果文件如下:

6. 同样写个函数来下载特定基因的表达数据:

首先定义好我们感兴趣的基因,这里随意选择了三个基因,分别为ESR1,GATA3,XBP1,接着同样的一个while循环下载数据,注意一点我们在给Sample.mRNASeq输入参数的时候,需要用到luad.Pats这个对象,因此建议大家先下载临床信息,在下载特定的基因表达信息。

7. 表达信息合并整理:

结果如下:

Sample type这一列women看到,两种类型,NT和TP,其中NT为癌, TP为癌旁,这个时候你的表达信息也就下载好了

8. 可视化一下,如下:

结果如下:

这样你就可以看到自己感兴趣的基因在不同样本里表达信息。

0 人点赞