动植物基因组大小粗略比较

2020-03-03 15:03:25 浏览数 (1)

在知乎看到问题 为什么植物基因组比动物基因组大(为什么植物基因组似乎比脊椎动物拥有更多的基因?)? 印象里好像也不一定,因为拟南芥的基因组也才100多M,自己之前也看到过有些鱼的基因组也可以达到1G的级别。所以到NCBI网站上查了一下,找到了459个陆生植物(land Plants)植物的基因组信息,264个鱼(Fishes)418个昆虫(insects),377个哺乳动物(Mammals)的基因组信息。

我们分别看一下基因组大小的分布范围
代码语言:javascript复制
library(ggplot2)
library(ggthemes)

landPlant<-read.csv("Genome_Size/landPlantsgenomes.csv",header=T)
landPlant$group<-"LandPlant"

fishes<-read.csv("Genome_Size/fishesgenomes.csv",header=T)
fishes$group<-"Fishes"

insects<-read.csv("Genome_Size/insectsgenomes.csv",header=T)
insects$group<-"Insects"

mammals<-read.csv("Genome_Size/mammalgenomes.csv",header=T)
mammals$group<-"Mammals"

df<-rbind(landPlant,fishes,insects,mammals)

dim(df)
colnames(df)
ggplot(df,aes(x=Size.Mb.)) 
  geom_density(aes(fill=group)) 
  facet_grid(group~.) 
  theme_gdocs() 
  theme(axis.text.y=element_blank()) 
  scale_fill_manual("Species",
                    values=c("#FFCC33","#FF3300",
                             "#990000","#0066FF")) 
  labs(x="Genome Size (MB)")

image.png 总体来看还是哺乳动物的基因组更大,上图看起来不太美观,我们去掉一些极端值

代码语言:javascript复制
ggplot(df,aes(x=Size.Mb.)) 
  geom_density(aes(fill=group)) 
  facet_grid(group~.) 
  theme_gdocs() 
  theme(axis.text.y=element_blank()) 
  scale_fill_manual("Species",
                    values=c("#FFCC33","#FF3300",
                             "#990000","#0066FF")) 
  xlim(0,5000) labs(x="Genome Size (MB)",y="")

image.png

接下来在分别看看最大和最小
代码语言:javascript复制
library(dplyr)
df1<-df%>%
  group_by(group)%>%
  summarise(value=max(Size.Mb.))
ggplot(df1,aes(x=group,y=value)) 
  geom_col(aes(fill=group)) 
  labs(x="Species",y="Genome Size (MB)") 
  theme_bw()
df2<-df%>%
  group_by(group)%>%
  summarise(value=min(Size.Mb.))
ggplot(df2,aes(x=group,y=value)) 
  geom_col(aes(fill=group)) 
  labs(x="Species",y="Genome Size (MB)") 
  theme_bw()
df2

最大

image.png 最大的是

代码语言:javascript复制
df[which(df$Size.Mb. > 27600),]

Pinus lambertiana

最小

image.png 最小基因组出现了0,应该是数据出现了问题,有时间再来检查吧

0 人点赞