oncoplot (瀑布图)经常出现在肿瘤研究中的Fig1 ,可以展示多种变异类型的全景图。
前面介绍过了使用maftools包 对MAF文件进行绘制maftools | 从头开始绘制发表级oncoplot(瀑布图),以及使用ComplexHeatmap 包对excel文件进行绘制ComplexHeatmap|根据excel表绘制突变景观图(oncoplot)。
当我只有基因和变异类型的时候,那就想办法整理成 excel的形式,然后使用ComplexHeatmap绘制。
一 载入R包,数据
代码语言:javascript复制#加载R包
library(tidyverse)
library(openxlsx)
library(reshape2)
library(ComplexHeatmap)
#读取数据
data <- read.xlsx("test.xlsx",sheet = 1)
head(data)
tail(data)
信息好少,但是好在绘制瀑布图的核心信息都在。
A:距离maf文件差距好大,放弃!
B:距离推文的excel表格(下图),好像差异不大 。
就是长 转 宽 ,然后多种Exonic_Function的就用逗号分隔就行。
二 数据转化
长型,宽型互转的方式有很多,可以使用tidyr包的gather ,spread函数进行长宽互转Tidyverse|tidyr数据重塑之gather,spread(长数据宽数据转化) ;也可以使用 reshape2包的melt 和 cast函数进行长宽互转数据处理|数据框重铸 。
2.1 使用reshape2包的dcast函数
代码语言:javascript复制#尝试转化
dcast <- dcast(data, gene~ sample)
head(dcast)
和想象的好像有点不一样,是不是有很多问号❓
这里不应该是基因名字吗?为什么是数值?数值又代表的什么含义呢?
注意看一下提示信息,“Aggregation function missing: defaulting to length” ,提到因为Aggregation function missing,默认是length。说明现在的数值代表length ,而length也就是个数。
那如果Aggregation function 不默认,是用什么参数设置呢?可以自定义成Exonic_Function使用逗号连接吗?
2.2 擅长使用R帮助
使用 ?dcast 看一下,发现fun.aggregate就是我们想要的参数,