Geneshot (上): 我的这个研究方向到底有哪些基因被研究过?

2020-06-01 16:05:34 浏览数 (1)

昨天的介绍基因数据库的时候,[数据库推荐]gene:基因相关信息查询提到了一个GeneRIFs这个数据。利用这个信息我们可以了解这个基因目前研究的功能,反过来通过这个也可以知道与某一个关键词有关的哪些基因研究有哪些。基于这个原理,就有了Geneshot(https://amp.pharm.mssm.edu/geneshot/index.html)数据库。

重要的事情说在前面:这个网站有时候检索不了,这个时候最好科学上网。请结合自身合理选择。

另外这个数据库只适用于人。

数据库原理

数据库主要是通过两个方面来对基因进行分析的,

  1. 基因发表的频率:数据库分析基因和文章发表的关系是基于ncbi当中的GeneRIF或者AutoRIF数据库的。GeneRIF 数据库及基于发表的文章来总结的与基因有关的信息。AutoRIF数据库是作者自己基于GeneRIF总结的数据。其中的数据量要比GeneRIF数据量要大。所以结果可能也更加的准确一些。但是呢,这个也要看数据库更不更新。如果数据库不更新的话,可能以后还是原始的GeneRIF好一些。
  2. 基因和其他基因的共表达关系。这个数据库通过五个个数据库来分析基因之间的相似性。其中包括刚才介绍的GeneRIFAutoRIF。其他的三个分别是Enrichr富集分析数据库。Tagger文献发表的在摘要当中的共存数据库。ARCHS4RNA-seq共表达数据库。

数据库总共包括三个可以检索的部分:

  • PubMed Query :通过检索某一个关键词,得到和这个关键词。
  • Gene Function Prediction:输入基因名,通过基于通路数据库和共表达数据库对目标基因进行功能预测。
  • Gene Set Augmentation:输入一系列的基因名,评估基因的研究程度以及相互作用。

由于数据库功能较多,我们分两节来介绍这个数据库的功能。

PubMed Query: 关键词检索

这个部分我们可以输入自己想要检索的关键词,同时如果有想要排除的也可以在排除的地方选择。对于背景数据库的选择可以选择GeneRIFAutoRIF

检索结果包括两个部分。

  1. 与目标关键词有关的基因汇总。

结果是以散点图的形式来呈现的,其中每一个点代表一个基因。图的X轴代表代表这个基因和这个关键词一起在GeneRIFs数据当中的文献有几篇。Y轴代表这些文献占这个基因总文献数的百分数。

例如我们使用 gastric cancer 进行检索。得到下面的这个散点图。其中 PGC 这个基因。X轴是25代表,找到和胃癌相关的文献有25篇,这25篇文献占总的和PGC有关文献总数的58%。说明和PGC有关的文献有58%是和胃癌有关的。点击相关基因,我们可以在旁边看到每一年这个基因发表文章的数量。通过散点图我们就可以知道哪些基因是特异性在胃癌当中研究的。那这些基因可能就是胃癌的特异性基因。

同时这个预测的结果也通过表格的形式得到了呈现,我们也可以下载结果的相关信息:

如果想要知道预测的这些基因富集分析是什么结果,我们可以点击上图的 Enrichr 按钮来进行富集分析。上图我们选择的是前32个基因进行富集。如果想要更多,可以进行自定义调整。

  1. 预测和检索关键词有关的其他基因。这个预测的原理也是基于上面检索得到的关键词相关基因,我们需要选择多少个相关基因进行预测。然后通过共表达数据库等来预测其他基因和这些相关基因的整体相关性。进而综合的评价哪个基因更加相关。 最后我们可以把鼠标悬停到得分上,就知道这个基因具体和哪个基因相关了。

数据库总结:

由于篇幅较长,今天就介绍数据库的一个功能。这个功能可以让我们在进行一项研究之前,通过检索了解这一项研究目前的相关基因有哪些。这样可以提前了解哪些基因更重要一些。同时在基因预测方面,也可以知道和这个关键词有关的其他基因可能有哪些。方便我们选择候选基因来进行研究。

明天我们会继续利用这个数据库查找基因的功能以及如果有很多基因如何找到哪个基因更有创新性。

0 人点赞