大家可能有一部分人对ArrayExpress数据库是比较熟悉的,当然也有人可能没怎么听说过。今天我么主要介绍一个可以获取ArrayExpress数据库数据的R包的安装以及使用。
首先我们看下Array Express (https://www.ebi.ac.uk/arrayexpress/)的网站页面:
接下来我们介绍下ArrayExpress包的安装:
既然是组学数据的R包一般都会是以Linux为主当然也会开发windows版本。首先我们看下Linux版本的安装,其实比较简单只要调用bioconductor中提供的命令就可以:
source("https://bioconductor.org/biocLite.R")
biocLite("ArrayExpress")
关键是windows下的安装有点复杂。如果电脑安装了Rtool那么也可以直接调用以上的命令进行安装;反之,我们也可以下载包到本地进行安装,下载地址:http://www.bioconductor.org/packages/release/bioc/bin/windows/contrib/3.5/ArrayExpress_1.40.0.zip
然后就是直接本地启动就可以了。
以上不管是在Linux还是在windows下安装完成后,都需要去测试另一个系统工具的运行状态,那就是curl工具,当然Linux一般都会安装好,只需要更新下就好,如果没安装好那需要安装。不管是windows还是Linux版本都在以下链接中:https://curl.haxx.se/download.html
Linux下的安装过程:
代码语言:javascript复制wget https://curl.haxx.se/download/curl-7.55.1.tar.gz
代码语言:javascript复制tar -xzvf curl-7.55.1.tar.gz
代码语言:javascript复制cd curl-7.55.1
代码语言:javascript复制./configure
代码语言:javascript复制make
代码语言:javascript复制makeinstall
便可以安装成功,检测命令 curl –version。
Windows下的安装过程:
下载对应的Windows下的版本,一般包含两个文件:
证书是需要安装的,.exe的文件需要拷贝到指定的文件夹即可。然后为curl配置环境变量,环境变量的配置我就不赘述了。
安装成功与否的测试和linux下一样。
至此,我们ArrayExpress的前期工作准备完毕。
最后就是如何使用ArrayExpress包进行数据的获取以及数据的分析。
首先,我们看下其中几个主要的函数:
1. queryAE()获取数据集的ID及相关描述信息
例: sets = queryAE(keywords = "kidney", species ="homo sapiens")以下是成功结果以及获取的结果的结构。
2. getAE()获取指定ID下的所有数据并下载到本地
例:mexp1422=getAE("E-MEXP-1422")
3. ae2biocae()将下载到本地数据转化为R语言可以识别的AffyBatch数据形式。
例:rawset= ae2bioc(mageFiles = mexp1422)
4. ArrayExpress( )对数据进行整合形成数据object,如果进一步进行表达的分析可以借助affy包,affy包的使用我们将在后面的教程中介绍使用。
例:AEset = ArrayExpress("E-MEXP-1416")