曼哈顿图是GWAS数据分析中经常会用到的一个图,R语言里有专门的包和函数直接生成曼哈顿图。但是如果有数据的话我们自己也可以用ggplot2来做。
做曼哈顿图的数据通常是以下这种格式
image.png
- 第一列是SNP对应的一个名字
- 第二列是染色体编号
- 第三列是SNP在染色体的位置
- 第四列是特征对应的一个P值
- 如果有多个特征依次往后排就可以了
曼哈顿图可以理解成一个x对应多个y的散点图,ggplot2里做这种图的函数是geom_jitter()
今天用到的数据集是来自于
rMVP
这个包中的pig60K
数据集
首先是获得这个数据集
代码语言:javascript复制library(rMVP)
data('pig60K')
使用ggplot2画图
代码语言:javascript复制library(ggplot2)
ggplot(pig60K,aes(x=Chromosome,y=trait1))
geom_jitter()
image.png
按不同的染色体填充颜色
代码语言:javascript复制ggplot(pig60K,aes(x=Chromosome,y=trait1))
geom_jitter(aes(color=Chromosome))
image.png
右侧的图例可以不要,把它去掉
代码语言:javascript复制ggplot(pig60K,aes(x=Chromosome,y=trait1))
geom_jitter(aes(color=Chromosome))
theme(legend.position = "none")
image.png
从图上可以看到Y染色体对应的只有一个点,可以在原始数据中把Y对应的数据去掉,用到dplyr
这个包中的filter()
函数
代码语言:javascript复制library(dplyr)
df<-filter(pig60K,Chromosome!="Y")
ggplot(df,aes(x=Chromosome,y=trait1))
geom_jitter(aes(color=Chromosome))
theme(legend.position = "none")
image.png
这个时候还有一个问题是X轴不是按照1,2,3这样依次排下来的,我们可以通过更改因子水平来给X轴重新排序
代码语言:javascript复制df$Chromosome<-factor(df$Chromosome,
levels = c(1:18,"X"))
ggplot(df,aes(x=Chromosome,y=trait1))
geom_jitter(aes(color=Chromosome))
theme(legend.position = "none")
image.png
曼哈顿图通常是对特征的p值取-log10
代码语言:javascript复制ggplot(df,aes(x=Chromosome,y=-log10(trait1)))
geom_jitter(aes(color=Chromosome))
theme(legend.position = "none")
image.png
最后是一些简单的美化
代码语言:javascript复制ggplot(df,aes(x=Chromosome,y=-log10(trait1)))
geom_jitter(aes(color=Chromosome))
theme_minimal()
theme(legend.position = "none",
axis.text.x = element_text(angle=60,hjust=1))
scale_y_continuous(expand = c(0,0),
limits = c(0,10))
scale_x_discrete(labels=paste0("Chr",c(1:18,"X")))
labs(x=NULL,y="-log10(Pvalue)")
geom_hline(yintercept = 6.25,lty="dashed")
image.png
今天内容的视频版
也欢迎大家到B站关注我 同名 小明的数据分析笔记本,会时不时的更新一些R语言做数据处理和数据可视化的视频,点击阅读原文直达。