多维组学通路分析R包ActivePathways的使用方法及Cytoscape绘制网络图的实用教程

2022-03-29 09:22:39 浏览数 (2)

导语

GUIDE ╲

之前我们介绍了一项整合多维组学通路分析的工作ActivePathways,能够在多个数据集中识别到显著富集的通路,包括那些在单个数据集中不明显的通路。今天来介绍一下这个R包的使用方法和使用输出文件进行Cytoscape绘制网络图。

下面这个图就是ActivePathways工作中对乳腺癌样本分析的绘图,下面就教大家怎样进行数据分析以及绘制这种节点为饼图的网络图~

R包介绍

ActivePathways的输入文件只需要两类,一个是p-values(之前我们介绍过,这里的P值可以是差异基因表达、基因必要性、突变或拷贝数变异负荷等的显著性P值)的数值型矩阵(该矩阵不能包含缺失值),另一个文件是一个GMT格式的基因集。

R包中示例文件:

(1)Adenocarcinoma_scores_subset.tsv

关于该文件中NA值,在下面R包程序中有做处理

(2)hsapiens_REAC_subset.gmt

1.整合通路分析

代码语言:javascript复制
#安装包
devtools::install_github('https://github.com/reimandlab/activePathways')
library(activePathways)

scores <- read.table('D:/R/R-3.6.2/library/activePathways/extdata/Adenocarcinoma_scores_subset.tsv', header=TRUE, row.names='Gene')
scores <- as.matrix(scores)
#fix(scores)
#scores就是上文介绍的Adenocarcinoma_scores_subset.tsv
scores[is.na(scores)] <- 1 #给缺失值赋值1
#因为矩阵中数值是P值,所以赋值的1在这种情况下是极端值了
result <- activePathways(scores,
                         #scores是P值数据,行是基因,列是tests                   'D:/R/R-3.6.2/library/activePathways/extdata/hsapiens_REAC_subset.gmt',
                         #读入GMT文件
                         geneset.filter = c(5, 1000),
                         #注释基因集的下限和上限
                         cutoff = 0.1,
                         #用于富集分析的基因的最大P值
                         merge.method = "Fisher",
                         #对基因p值进行合并的方法,可选"Brown", "Fisher"
                         significant = 0.05,
                         #显著富集通路的最大p值
                         correction.method ="bonferroni",
                         #校正P值的方法,可选"holm", "fdr", "hochberg", "hommel", "bonferroni", "BH", "BY", "none"
                         cytoscape.file.tag = "C:/Users/DELL/Desktop/results"
                         #是否生成cytoscape可用的文件
                         )
fix(result)

输出result数据:

term.id:条目的id

term.name:条目的全称

adjusted.p.val:校正后的P值

term.size:注释到该条目的基因数

overlap:条目和查询基因之间重叠的基因

evidence:scores列是用来通路富集的。对每一列scores都要分别进行评估以便富集,如果发现了通路,则添加到evidence列

2.生成Cytoscape文件

activePathways会生成4个用于Cytoscape 的EnrichmentMap和enhancedGraphics apps构建网络的文件。

注:上述例子中“cytoscape.file.tag = "C:/Users/DELL/Desktop/results"”语句用于生成生成Cytoscape文件。

(1)pathways.txt:与P值显著相关的terms列表(校正富集P值后的)

(2)subgroups.txt:该矩阵表示当只考虑scores的一列时,是否发现显著的通路。A1表明,仅使用该列来进行富集分析,该term是显著的。

(3)pathways.gmt:提供的gmt文件的缩减版,仅包含 pathways.txt中的terms

(4)legend.pdf:图例展示scores列及匹配颜色

Cytoscape绘图

1. 在Cytoscape中安装Enrichment Map app

Cytoscape是我们生信网络分析最常用软件,https://cytoscape.org/可直接下载。我使用的是Cytoscape_3_8_0版本,运行需要安装JAVA 11环境。

2. 上传Enrichment Map构图文件

使用 terms文件 (pathways.txt)和缩减版的gmt文件 (pathways.gmt)在Cytoscape中创建一个富集图示。

可以看到展示初步的网络图,此时节点信息还不完全。节点越大代表富集基因越多,节点颜色代表P值显著性。

3. 调整网络图

(1)上传(文件>导入>表>文件)子组文件(subgroups.txt)。这里主要目的是对节点进行调整,用饼图赋予P值来源信息(CDS、X3UTR、promCore、combined)。

(2)在“style”面板下,设置image/Chart1使用饼图,重置节点信息。

(3)修改饼图组成颜色

小编总结

可以说ActivePathways是一款非常方便实用的通路分析工具了,关于其方法思路等我们之前有介绍过,这里就不多说了。该包提供的cytoscape作图文件简直太好用了,对于网络图一些其他细节的修改,比如标签、边的粗细颜色形状、节点透明度之类的,小编这里就不赘述了,大家快去试试玩玩吧

0 人点赞