导语
GUIDE ╲
GEPIA (Gene Expression Profiling Interactive Analysis) web服务器是2017年推出的,是基于TCGA和GTEx数据库中肿瘤和正常样本进行基因表达分析的一个资源。今天向大家介绍一下更新和增强的GEPIA2版本,提供了更高的resolution和更多的功能。
数据库介绍
GEPIA2具有198 619种isoforms(功能上相似的蛋白质,具有相似但不完全相同的氨基酸序列,由不同基因编码,或由去除不同外显子的相同基因的RNA转录本编码)和84种癌症亚型,从基因水平扩展到转录本水平将基因表达量化,支持对特定癌症亚型的分析和亚型之间的比较。此外,GEPIA2采用了受单细胞测序研究启发的新的基因特征量化分析技术,提供定制分析,用户可以上传自己的RNA-seq数据,并与TCGA和GTEx样本进行比较。还提供了一个用于批量处理的API,以及容易检索分析结果。更新后的web服务器可以通过http://gepia2.cancer pku.cn/公开访问。
使用方法
01
首页
02
表达分析
(1)General常规分析
输入基因后,会显示该基因相关的基因功能信息,当将鼠标点击到人体图,可以显示该基因在不同组织中的表达情况,还分别以散点图和箱式图的形式提供所有肿瘤样本和配对正常组织的基因表达谱,以及该基因的Isoforms信息和与其相似的基因。
(2)Differential Genes差异表达分析
结果展示:
(提供该图的下载)
(3)Expression DIY定制表达分析
小编在这里主要看了BRCA1基因在三个癌型中的差异表达情况
(4)Survival Analysis生存分析
(5)Isoform Details同种型情况
输出:
(6)Correlation Analysis相关性分析
(7)Simlar Genes Detection识别相似基因
这里的相似基因的识别似乎也是基于上述的相关性分析方法。这里得到的数据可以下载。
(8)Dimensionality Reduction降低维度
这部分是根据一组基因的表达对来自不同癌症类型和组织的样本进行主成分分析(PCA)降维。
03
定制分析
这一部分主要是用户要上传自己的数据来进行分析。
(1)Cancer Subtype Classifier癌症亚型分类
癌型分类器主要用RNA-seq数据进行预测。选择要测试的模型,会通过每个子类型的样本得到一个概率矩阵。要求上传的基因表达谱应该是带有Hugo基因名称的TPM值。该分类器基于python中sklearn包实现的朴素贝叶斯算法,经过一些修改(如特征选择)。警告:要选择上传的文件的正确癌症类型,否则会得到无意义的结果。
(2)Expression Comparison表达比较
可以上传文件并选择一种癌症类型进行比较。默认情况下,将根据所选癌症类型的中位数进行分位数标化。然后会话将保持,直到刷新窗口,因此可以多次输入一个基因,而无需重新上传文件。上传的基因表达谱应该是带有Hugo基因名称的TPM值。建议上传由XENA pipeline处理的表达文件,由GEPIA使用。
04
数据资源
这里展示了GEPIA2中可用的TCGA/GTEx数据量。在组织标本tab中,进行了肿瘤与正常的比较。有60,498个基因和198,619个isoforms。同时展示了每种癌症的不同亚型。
小编总结
GEPIA2不仅能够针对单基因的功能信息,还同时可以展示其在不同组织中的表达情况,以散点图和箱式图的形式提供所有肿瘤样本和配对正常组织的基因表达谱,以及该基因的Isoforms信息和识别与其相似的基因。除此之外,还能对配对基因进行相关性分析,对基因基于表达值分组进行生存分析。用户也可以上传自己的数据进行分析。