CNAmet-整合多组学数据预测癌症变化一致基因R包

2020-08-05 10:46:04 浏览数 (1)

癌症中基因的拷贝数,DNA甲基化改变是基因表达的关键调节子。一般的同时表现出甲基化,拷贝数,表达改变的基因更有可能在癌症的发生发展过程中起关键的作用。

今天给大家介绍一个整合多组学数据预测癌症变化一致基因的一个R包- CNAmet。它可以通过前期的数据预处理,简单实现-寻找变化一致的基因(拷贝数缺失,高甲基化,低表达的基因或者拷贝数扩增,低甲基化,高表达的基因),实现该功能后进行样本随机。最终输出基因的列表以及各项权值和p-value,FDR。

输入数据:

1.同样本的表达,DNA甲基化,拷贝数数据。其中拷贝数数据和甲基化数据需要前期的预处理,处理成0/1的二元矩阵,行为基因,列代表样本。

2.预处理方法,以TCGA的数据为例,我们首先需要以上涉及到的数据,对于拷贝数数据,利用GISTIC 2.0处理level 3的拷贝数数据,得到基因在样本中的离散化矩阵,例如1代表扩增,0代表没有出现扩增,同理我们处理DNA甲基化level 3数据,因为beta值是介于0-1之间的数值,这里我们认为> 0.8为高甲基化,< 0.2为低甲基化。

3.完成上述两步,我们只需将三个分子矩阵处理成相对应的行和列,接下来我们就可以进行跑程序了。

涉及到的代码如下(以示例数据位说明)

Library (CNAmet)

Results<- CNAmet(exprMatrix, cghMatrix, methylMatrix, perms = 1000, na.limit = 0.1, gainData = TRUE, favorSynergetic = TRUE)

write.table(results,file="cca_tsg.txt",quote=F,sep=" ")

其中exprMatrix, cghMatrix, methylMatrix为预处理得到的三个分子矩阵代表表达谱,离散化的拷贝数谱,离散化的甲基化谱。

输出结果如下图:

0 人点赞