什么基因研究最多??

2022-01-17 17:16:31 浏览数 (1)

如果我们想探索一下什么基因研究的最多,那就是检索pubmed数据库资源。在 NCBI的ftp里面关于人的一些基因信息 :

代码语言:javascript复制
ftp://ftp.ncbi.nlm.nih.gov//gene

下载即可!

其中 gene2pubmed.gz 这个是NCBI的entrez ID号对应着该基因发表过的文章的ID号

代码语言:javascript复制
ftp://ftp.ncbi.nlm.nih.gov//gene/DATA/gene2pubmed.gz

下载后的文件读入,进行词云可视化。

代码语言:javascript复制
library(data.table)
library(wordcloud)
library(org.Hs.eg.db)
g2p <- fread('/data/NCBI/gene2pubmed.gz',data.table = F)
head(g2p)

tb <- as.data.frame(table(g2p$GeneID))
tb <- tb[order(tb$Freq,decreasing = T),]
colnames(tb)[1]='gene_id'
head(tb)
ids=toTable(org.Hs.egSYMBOL)
head(ids)
tbs=merge(ids,tb,by='gene_id')
wordcloud(words = tbs$symbol, freq = tbs$Freq, min.freq = 1,
          max.words=200, random.order=FALSE, rot.per=0.35,
          colors=brewer.pal(8, "Dark2"))

我们发现TP53这个基因研究的最多。

代码语言:javascript复制
tbs <- tbs[order(tbs$Freq,decreasing = T),]
head(tbs)
代码语言:javascript复制
> head(tbs)
      gene_id symbol  Freq
33878    7157   TP53 10539
17376    1956   EGFR  6094
33847    7124    TNF  6072
23610    3569    IL6  4889
34713    7422  VEGFA  4882
23387     348   APOE  4650

参考:

研究最热门的基因是什么

0 人点赞