WGCNA是一种从大量数据中挖掘module的算法,而这些module所包含的gene为一组表达模式类似或这说表达谱相似的基因,也就是相关或不相关。
而正相关还是负相关可以由WGCNA的参数进行设定,默认是既包括正相关又包括负相关。
相似的表达模式可能意味着
-1 tightly co-regulated
-2 functionally related
-3 members of the same pathway
和聚类有一定的相似,但更具有生物学意义。
WGCNA对基因间表达量的相关系数取n次幂,使得相关系数数值的分布逐渐符合无尺度分布,按gene表达模式进行分类,将模式相似的gene归一一个模块module,而不是一般的cluster,因此WGCNA得出的结果有更高的可信度。把几个模块筛选出来了,模块中的gene也就知道了,这样,可以用这些结果分析出更多的意义。
在co-expression 网络中,每一个gene在一个特定时间或空间的表达情况可以看成一个点node,可以通过计算任何两个gene间的相关系数可以得到gene间的表达情况。第i个和第j个gene的pearson相关系数,即表示两个gene的表达相似性。可以通过设定一个阈值来确定两个gene之间的表达谱是否相似。达到这个阈值了就认为它们之间是相似的。这种方式的缺点就是,假如定义了0.8,那么0.79和0.81就是两个不同的范畴了。WGCNA通过软阈值避免这一问题。
网络的数学名称是图,图论中每一个节点node有一个概念,那就是度degree,一个点的度指的是图中该点所关联的边数edge。
scale-free network特点是存在少数节点,具有明显高于一般点的度,也就是并不是平均分布,这些点称为hub,由少数hub与其它节点关联,构成真哥哥网络。这样的无尺度网络的节点读书与具有该度数的节点个数服从幂分布,这就为寻找最佳参数提供了理论依据。
进化的过程中,生物选择了这种网络有其进化意义。整个生物网络中,少数的关键性的gene执行主要功能,只要保证hub的完整性,整个生物网络就不会坍塌,那生命体系就不会受太大影响。
WGCNA的详细流程
WGCNA关键模块和hub基因筛选