写在前面
关于PCAWG在线数据库的介绍,之前我们介绍了ICGC和UCSC XENA这两个数据库。其中ICGC主要是可以用来分析突变在泛癌当中的结果。而UCSC XENA则是一个综合性的数据库,可以用来分析几乎所有的涉及到TCGA的数据。由于分析的内容比较多,所以也就导致操作会相对来说复杂很多。但假如我只是想看一个基因表达情况的话,那使用XENA就稍微有一些大材小用了。今天介绍的这个数据库就是专门用来查询基因表达情况的数据库。这个数据库就是:Expression Atlas (https://www.ebi.ac.uk/gxa/home)。
Expression atlas
看数据库的名字就知道。这个数据库就是用来分析基因表达情况的。而其中PCAWG数据只是这个数据库的一部分。这里我们就先简单介绍一下数据库的时候,在进一步的说明PCAWG在这个数据库如何使用。
Expression atlas数据库,包含了65个物种在内的3900 的高通量测序的结果。我们需要做的就是(i)输入想要检索的一个或者一类基因; (ii)选择物种和想要查看的组织类型(可选)。即可获得相关的结果。
例如我们检索基因:TP53。结果主要是通过三个部分来进行展示的
1. 基因在正常组织当中表达情况
首先我们看到的是关于这个基因表达的基本信息。结果是以一个器官图和一个热图(行是数据集,列是组织类型)来进行展示的。
其中在热图的结果展示当中,红色的是转录组的数据,绿色的是蛋白质组的数据。我们可以发现之前介绍的protein atlas的数据也在这里。所以有时候我们想要看基因蛋白的表达,可以尝试在这里看一下的。
如果我们想要查看某几个组织器官的结果的话,可以在Filter当中进行筛选。例如我们只关注胃肠的表达情况。
在基线表达上面,我们看到的这个基因在不同正常组织当中的表达。有时候我们是需要研究疾病的。所以就要看差异表达情况了。
2. 差异差异表达情况
在差异表达情况当中,我们可以看到在纳入的数据集当中,相关基因预后差异表达的数据集都是哪些。同时可以可以看出数据集的具体研究分组以及差异表达趋势log2(fold change)。
3. 基因信息
最后我们可以看到这个基因的基本信息。主要是包括这个基因在不同数据库当中的ID是什么。
PCAWG在expression atlas的查询
以上是expression atlas的基本使用方法。如果只是想查询基因在PCAWG当中的表达情况的话,可以直接使用专门的链接进行查询。这个链接:https://www.ebi.ac.uk/gxa/experiments/E-MTAB-5200/Results
我们需要做的就是在Genes的地方输入想要检索的基因即可。这里可以输入多个基因。例如我们输入:AAAS ; FBN1
默认的表达表达情况是显示血液系统相关的数据。我们可以在Diseases当中进行筛选。例如我们可以查看胃当中相关的表达情况。
我们就可以看到在胃癌;胃癌旁正常以及正常组织当中的表达情况是什么样子的。
数据下载
关于expression atlas的数据。不止是PCAWG的表达数据以及他们分析的其他的RNA-seq等数据。都是可以下载的。这其实也提供了另外一个下载公共二代表达数据的地方。所以如果以后在GEO里面看到哪个二代的数据,但是自己又分析不了。可以尝试的在这里寻找一下有没有表达数据结果。