癌症中基因的拷贝数,DNA甲基化改变是基因表达的关键调节子。一般的同时表现出甲基化,拷贝数,表达改变的基因更有可能在癌症的发生发展过程中起关键的作用。
今天给大家介绍一个整合多组学数据预测癌症变化一致基因的一个R包- CNAmet。它可以通过前期的数据预处理,简单实现-寻找变化一致的基因(拷贝数缺失,高甲基化,低表达的基因或者拷贝数扩增,低甲基化,高表达的基因),实现该功能后进行样本随机。最终输出基因的列表以及各项权值和p-value,FDR。
输入数据:
1.同样本的表达,DNA甲基化,拷贝数数据。其中拷贝数数据和甲基化数据需要前期的预处理,处理成0/1的二元矩阵,行为基因,列代表样本。
2.预处理方法,以TCGA的数据为例,我们首先需要以上涉及到的数据,对于拷贝数数据,利用GISTIC 2.0处理level 3的拷贝数数据,得到基因在样本中的离散化矩阵,例如1代表扩增,0代表没有出现扩增,同理我们处理DNA甲基化level 3数据,因为beta值是介于0-1之间的数值,这里我们认为> 0.8为高甲基化,< 0.2为低甲基化。
3.完成上述两步,我们只需将三个分子矩阵处理成相对应的行和列,接下来我们就可以进行跑程序了。
涉及到的代码如下(以示例数据位说明)
Library (CNAmet)
Results<- CNAmet(exprMatrix, cghMatrix, methylMatrix, perms = 1000, na.limit = 0.1, gainData = TRUE, favorSynergetic = TRUE)
write.table(results,file="cca_tsg.txt",quote=F,sep=" ")
其中exprMatrix, cghMatrix, methylMatrix为预处理得到的三个分子矩阵代表表达谱,离散化的拷贝数谱,离散化的甲基化谱。
输出结果如下图: