如果我们想探索一下什么基因研究的最多,那就是检索pubmed数据库资源。在 NCBI的ftp里面关于人的一些基因信息 :
代码语言:javascript复制ftp://ftp.ncbi.nlm.nih.gov//gene
下载即可!
其中 gene2pubmed.gz 这个是NCBI的entrez ID号对应着该基因发表过的文章的ID号
代码语言:javascript复制ftp://ftp.ncbi.nlm.nih.gov//gene/DATA/gene2pubmed.gz
下载后的文件读入,进行词云可视化。
代码语言:javascript复制library(data.table)
library(wordcloud)
library(org.Hs.eg.db)
g2p <- fread('/data/NCBI/gene2pubmed.gz',data.table = F)
head(g2p)
tb <- as.data.frame(table(g2p$GeneID))
tb <- tb[order(tb$Freq,decreasing = T),]
colnames(tb)[1]='gene_id'
head(tb)
ids=toTable(org.Hs.egSYMBOL)
head(ids)
tbs=merge(ids,tb,by='gene_id')
wordcloud(words = tbs$symbol, freq = tbs$Freq, min.freq = 1,
max.words=200, random.order=FALSE, rot.per=0.35,
colors=brewer.pal(8, "Dark2"))
我们发现TP53这个基因研究的最多。
代码语言:javascript复制tbs <- tbs[order(tbs$Freq,decreasing = T),]
head(tbs)
代码语言:javascript复制> head(tbs)
gene_id symbol Freq
33878 7157 TP53 10539
17376 1956 EGFR 6094
33847 7124 TNF 6072
23610 3569 IL6 4889
34713 7422 VEGFA 4882
23387 348 APOE 4650
参考:
研究最热门的基因是什么