大家应该对GEO数据很是熟悉,其存储了大量微阵列数据。我们平时都是log2()解决数据标准化的问题,今天给大家介绍一个专门用来对大量公共研究测序的微阵列数据进行数据标准化的R包frma(Frozen RobustMultiarray Analysis),从而解决多来源微阵列数据的差异性问题。其安装还是依赖于bioconductor,在这里多说一句,如果你的R语言是3.5以上版本,可以直接安装一个bioMager的包,这个就是bioconductor管理包的工具,如果没有达到3.5,那只有使用老方法了:
source("https://bioconductor.org/biocLite.R")
biocLite("frma")
biocLite("frmaExampleData")#实例数据文件
biocLite("hgu133afrmavecs")#实例数据参考文件
下面我们介绍下frma包的使用:
首先是数据的引入,我们引入的数据是通过affy包对cell处理过的affyBatch数据格式:
library(frmaExampleData)
data(AffyBatchExample)
接下来是数据的读入,此处用到frma的核心函数frma,对原始数据进行转化:
object <- frma(AffyBatchExample)
e <- exprs(object)#对以上object的进行转化,构成表达数据矩阵:
我们可以利用函数barcode评估以上样本数据的表达分布情况,具体函数参数:
其中的platform包括GPL96,GPL570, GPL571, GPL1261, GPL6244, GPL6246,或直接设置为Null;output可以自行设置输出p-value, z-score, lod, 或 binary
我们可以利用GNUSE函数对我们得到的数据进行质量的评估:
其展示形式多样:
GNUSE(object,type="stats")
GNUSE(object,type="plot")