在知乎看到问题 为什么植物基因组比动物基因组大(为什么植物基因组似乎比脊椎动物拥有更多的基因?)? 印象里好像也不一定,因为拟南芥的基因组也才100多M,自己之前也看到过有些鱼的基因组也可以达到1G的级别。所以到NCBI网站上查了一下,找到了459个陆生植物(land Plants)植物的基因组信息,264个鱼(Fishes)418个昆虫(insects),377个哺乳动物(Mammals)的基因组信息。
我们分别看一下基因组大小的分布范围
代码语言:javascript复制library(ggplot2)
library(ggthemes)
landPlant<-read.csv("Genome_Size/landPlantsgenomes.csv",header=T)
landPlant$group<-"LandPlant"
fishes<-read.csv("Genome_Size/fishesgenomes.csv",header=T)
fishes$group<-"Fishes"
insects<-read.csv("Genome_Size/insectsgenomes.csv",header=T)
insects$group<-"Insects"
mammals<-read.csv("Genome_Size/mammalgenomes.csv",header=T)
mammals$group<-"Mammals"
df<-rbind(landPlant,fishes,insects,mammals)
dim(df)
colnames(df)
ggplot(df,aes(x=Size.Mb.))
geom_density(aes(fill=group))
facet_grid(group~.)
theme_gdocs()
theme(axis.text.y=element_blank())
scale_fill_manual("Species",
values=c("#FFCC33","#FF3300",
"#990000","#0066FF"))
labs(x="Genome Size (MB)")
image.png 总体来看还是哺乳动物的基因组更大,上图看起来不太美观,我们去掉一些极端值
代码语言:javascript复制ggplot(df,aes(x=Size.Mb.))
geom_density(aes(fill=group))
facet_grid(group~.)
theme_gdocs()
theme(axis.text.y=element_blank())
scale_fill_manual("Species",
values=c("#FFCC33","#FF3300",
"#990000","#0066FF"))
xlim(0,5000) labs(x="Genome Size (MB)",y="")
image.png
接下来在分别看看最大和最小
代码语言:javascript复制library(dplyr)
df1<-df%>%
group_by(group)%>%
summarise(value=max(Size.Mb.))
ggplot(df1,aes(x=group,y=value))
geom_col(aes(fill=group))
labs(x="Species",y="Genome Size (MB)")
theme_bw()
df2<-df%>%
group_by(group)%>%
summarise(value=min(Size.Mb.))
ggplot(df2,aes(x=group,y=value))
geom_col(aes(fill=group))
labs(x="Species",y="Genome Size (MB)")
theme_bw()
df2
最大
image.png 最大的是
代码语言:javascript复制df[which(df$Size.Mb. > 27600),]
Pinus lambertiana
最小
image.png 最小基因组出现了0,应该是数据出现了问题,有时间再来检查吧