R语言获取ArrayExpress数据库数据

2019-07-31 09:59:32 浏览数 (1)

大家可能有一部分人对ArrayExpress数据库是比较熟悉的,当然也有人可能没怎么听说过。今天我么主要介绍一个可以获取ArrayExpress数据库数据的R包的安装以及使用。

首先我们看下Array Express (https://www.ebi.ac.uk/arrayexpress/)的网站页面:

接下来我们介绍下ArrayExpress包的安装:

既然是组学数据的R包一般都会是以Linux为主当然也会开发windows版本。首先我们看下Linux版本的安装,其实比较简单只要调用bioconductor中提供的命令就可以:

source("https://bioconductor.org/biocLite.R")

biocLite("ArrayExpress")

关键是windows下的安装有点复杂。如果电脑安装了Rtool那么也可以直接调用以上的命令进行安装;反之,我们也可以下载包到本地进行安装,下载地址:http://www.bioconductor.org/packages/release/bioc/bin/windows/contrib/3.5/ArrayExpress_1.40.0.zip

然后就是直接本地启动就可以了。

以上不管是在Linux还是在windows下安装完成后,都需要去测试另一个系统工具的运行状态,那就是curl工具,当然Linux一般都会安装好,只需要更新下就好,如果没安装好那需要安装。不管是windows还是Linux版本都在以下链接中:https://curl.haxx.se/download.html

Linux下的安装过程:

代码语言:javascript复制
wget https://curl.haxx.se/download/curl-7.55.1.tar.gz
代码语言:javascript复制
tar -xzvf  curl-7.55.1.tar.gz
代码语言:javascript复制
cd curl-7.55.1
代码语言:javascript复制
./configure
代码语言:javascript复制
make
代码语言:javascript复制
makeinstall

便可以安装成功,检测命令 curl –version。

Windows下的安装过程:

下载对应的Windows下的版本,一般包含两个文件:

证书是需要安装的,.exe的文件需要拷贝到指定的文件夹即可。然后为curl配置环境变量,环境变量的配置我就不赘述了。

安装成功与否的测试和linux下一样。

至此,我们ArrayExpress的前期工作准备完毕。

最后就是如何使用ArrayExpress包进行数据的获取以及数据的分析。

首先,我们看下其中几个主要的函数:

1. queryAE()获取数据集的ID及相关描述信息

例: sets = queryAE(keywords = "kidney", species ="homo sapiens")以下是成功结果以及获取的结果的结构。

2. getAE()获取指定ID下的所有数据并下载到本地

例:mexp1422=getAE("E-MEXP-1422")

3. ae2biocae()将下载到本地数据转化为R语言可以识别的AffyBatch数据形式。

例:rawset= ae2bioc(mageFiles = mexp1422)

4. ArrayExpress( )对数据进行整合形成数据object,如果进一步进行表达的分析可以借助affy包,affy包的使用我们将在后面的教程中介绍使用。

例:AEset = ArrayExpress("E-MEXP-1416")

0 人点赞