​cytoscape的十大插件之五--Centiscape(计算多个中心值)

2021-05-27 15:34:50 浏览数 (1)

五一劳动节,连续五天,在钉钉群直播互动授课带领大家系统性掌握cytoscape软件的使用方法和技巧,课程已经结束啦。文末有录播回放学习方式,以及配套授课资料!

下面是cytoscape讲师的笔记

一、初识

  • 据文献介绍,Centiscape是目前唯一能同时计算多个中心值的Cytoscape插件。在Centiscape上,通过计算出中心值或者用从实验中得到的生物参数排序,能够从网络上得到关键节点。

二、名词解释

  • 先了解一些拓扑网络参数,之后会用到插件中

0. 基本概念

  • G=(V,E):有向网络,或无向网络
  • dist(v,w):节点v 和 节点w 间的最短距离
  • σst :任意任意两点最短距离数目
  • σst(v):最短距离中经过节点v 的数目
  • 什么是最短距离??
  • 如下面网络,v→w 有两条路:v-b-c-w;v-a-w
  • v-a-w经过边和节点数最少,即为两节点的最短距离

1. Diameter (∆G,直径)

  • 定义:网络中任意两节点最短距离中的最长距离
  • 作用:
    • 展示了网络内任意节点的最长距离
    • 如果网络的直径大,不一定是分散型网络。因为也有可能存在网络内只有两个节点距离较远,而其他节点比较密集;但如果网络的直径小,可证明其为紧密型网络
    • 网络的直径一般与节点数目一起比较。如一个大的网络(节点数目多),直径小会比同样直径小的小网络更有意义。
    • 通过直径可判断网络的发展
  • 意义:
    • 如果是PPI网络,直径小可认为蛋白间相互作用的程度高。如果网络内具有单独的节点(没有连接边),直径应该需要加权处理。

2. Average Distance (AvDG,平均最短距离)

  • 定义:网络中任意两节点最短距离的平均值
  • 作用:一般不是整数。平均最短距离的作用与直径类似,但更有意义。也是与节点数目一起比较,判断网络分散或密集型。
  • 意义:
    • 如果是平均最短距离低的蛋白网络,可认为网络是紧密型,有倾向于形成功能性复合物或模块的趋势。

3. Degree(度)

  • 定义:
    • 无向网络(如PPI):与节点v直接相连的节点数目,同样对应连接边的数目
    • 有向网络:当箭头指向节点v,其数目成为 in-degree;当箭头背对节点v,指向临近点时,其数目成为 out-degree
  • 作用:
    • 判断网络的分布
    • 如呈高斯分布(Gaussian distribution ),证明网络没有高度集中的节点,此为随机,非自然的网络
    • 如呈幂律度分布(power-law degree distribution ),证明网络存在少数节点具有较高的度。
    • 能够评估网络节点的调控性。如在网络中,如果某蛋白有high degree,就证明其和很多其他蛋白具有相关性,可认为其是关键蛋白。

4. Stress (Cstr(v),应力)

  • 定义:
    • 代表节点中心值的指标
    • 首先计算网络中任意两点的最短路径数目,然后其中经过v点的最短路径,就是节点v的应力
  • 作用:
    • 值得注意是,若节点v应力高,并不意味着节点v是任意两个节点间的关键点,可能它们之间的最短路径没有经过节点v
  • 意义:
    • 在PPI网络中,若该节点的应力高,证明其蛋白质能将其他节点蛋白连接起来的能力强。

5. S.-P. Betweenness (Cspb(v),中间度)

  • 定义:
    • 代表节点中心值的指标,与 Stress相似,但含有更多的意义
    • 首先计算网络中任意两点的最短路径数目总和,然后计算其中经过v点的最短路径的数量与总和的比
    • 如果节点n只相连 v1 和 v2,且 v1 和 v2 的最短路径也是经过v,则节点n拥有很高的中间度,但应力小(因为应力只计算经过v点的最短路径的数量,不是计算比值)
  • 意义:
    • 在PPI网络中,若该节点的中间度高,证明其蛋白质为关键蛋白。

6. Radiality (Crad(v),径向度)

  • 定义:
    • 代表节点中心值的指标
    • 若计算节点v的径向度,先求出其与网络任意节点的最短距离,后用(直径 1)减去它,得到的数值求总和,最后除以(节点数目-1)
  • 作用:
    • 一般与网络的平均径向度作比较
    • 径向度高,意味着其他点均接近节点v;径向度低,意味着其他点均远离节点v
    • 同样,不应过多关注单个节点的径向度,应把其当作节点紧密或远离程度的趋势;
    • 建议和离心率,紧密度一起对节点进行评估,若某节点高紧密度,高离心率,高径向度那就很有可能是网络的中心。
  • 意义:
    • 与平均径向度相比,高径向度的节点更容易成为网络的中心;但径向度低的节点也有意义,虽然与特定的网络可能不太相关,但有可能与其他调控网络相关,成为连接不同网络的交界点。
    • 此参数与紧密度,离心率的意义差不多

7. Closeness (Cclo(v),紧密度)

  • 定义:
    • 代表节点中心值的指标
    • 若计算节点v的离心率,先求出其与网络任意节点的最短距离,后求其总和,最后求倒数
  • 作用:
    • 一般与网络的平均紧密度作比较
    • 紧密度高,意味着其他点均接近节点v;紧密度低,意味着其他点均远离节点v
    • 特殊情况:紧密度高也有可能因为存在某些节点离v近,但有部分离得远;紧密度低也有可能。
    • 因此,不应过多关注单个节点的紧密度,应把其当作节点紧密或远离程度的趋势;
    • 建议和离心率一起对节点进行评估,若某节点高紧密度,高离心率,那就很有可能是网络的中心。
  • 意义:
    • 与平均紧密度相比,高紧密度的节点更容易成为网络的中心;但紧密度低的节点也有意义,虽然与特定的网络可能不太相关,但有可能与其他调控网络相关,成为连接不同网络的交界点。

7. Centroid value (Ccen(v),质心值)

  • 定义:
  • γv(w) 是相比于靠近节点w,更靠近节点v的数目
  • γw(v) 同理,最后相减求出最小值
  • 此为最复杂的节点中心值的指标
  • 作用:
    • 因为此参数包含了与其他节点做对比,因此是个权重的结果
    • 高质心值的节点,意味着它有很多个邻近点(不单指第一邻近点)
  • 意义:
    • 相对于平均值,高质心值的点更有可能参与协调其他高度连接蛋白的活性,共同致力于某一特定细胞活性的调控(如细胞黏附,基因表达,增值等)
    • 因此,有高平均质心值的网络,更有可能形成功能性聚类模块,而低平均质心值的网络,更有可能形成连接不同功能的蛋白簇。
    • 建议与与能够计算出蛋白质网络调控关键模块的算法进行比较,如MCODE等

9. Eccentricity (Cecc(v),离心率)

  • 定义:
    • 代表节点中心值的指标。
    • 若计算节点v的离心率,先求出其与网络任意节点的最短距离,后挑选出最大的值,即为最短距离中的最长距离,最后求其倒数
  • 作用:
    • 当节点v的离心率高时,即最短距离中的最长距离比较小,意味着其他节点很接近。
    • 当节点v离心率低时,意味着至少有一个节点离节点v远
  • 意义:
    • 一般与网络的平均离心率作比较
    • 若某节点的离心率比较高,意味着更容易受到其他节点蛋白的影响(更复杂的调控)

10. Eigenvector Centrality(特征向量中心性)

  • 使用了Google’s Page Rank算法,特征向量中心性计算可看作一个加权的处理。
  • 特征向量中心性,不仅取决于相邻节点的数量,也取决于相邻节点的重要性
  • 意义:
    • 与degree相似,高特征向量节点,意味着网络内的关键蛋白,提供主要调控作用
    • 低特征向量节点,可认为是外周蛋白,连接着少量关键蛋白

11.Bridging Centrality(桥接中心性)

  • 定义:
    • the Bridging Coefficient (BC) and the Betweenness centrality (Btw)
    • BC*BW
    • 若该节点相连临近点有 high degree,则该点桥接中心性高
  • 意义:
    • 若某节点拥有高桥接中心性,意味着它调控着重要蛋白或被调控,可认为是蛋白网络的关键靶点

12. Edge Betweenness(边中心性)

  • 定义:
    • 代表边的中心性指标
    • 若计算edge E 的边中心性,先计算网络任意两点的最短距离,后求其经过edge E 的数量
  • 作用:
    • 若边中心性高,则证明在蛋白网络中,此调节过程更重要
    • 在信号网络中,边中心性高意味着维持功能和信号机制的一致性

三、操作演示

1. 安装

  • 可参考前面推送步骤

2. 载入数据

  • 首先从一个网络开始,构建PPI网络
  • 具体如何构建网络,可前面推动步骤

3. 分析

3.1 选择对应插件功能

3.2 选择对应计算参数

可了解右方问号看对应参数解释

3.3 选择网络类型

  • 此为PPI网络,选择无向网络(for undirected networks)
  • 另外选择:
  • 给边赋予一个属性,在计算最短距离时进行加权
  • 若两点之间有两条连线都是相同数目的边,这时需确定加权数,来确定最短距离
  • 有向网络(for directed networks):节点之间存在调控作用,如节点a到节点b的作用,不能说节点b到节点a
  • 加权边(weighted edges)

4. 结果

  • 具体数值结果在网络下方呈现
  • 网络右边还有具体调控参数
  • 右方是默认求出各参数平均值,≥阈值的节点会在网络下方的表格出现
  • 可划动调控阈值范围,也可以选择≤阈值的节点,点解 update 后,网络下方结果表格会发生变化
  • 下面以条形图呈现不同节点的中心值
  • 蓝色:平均值;绿色:最小值;白色:最大值;红色:该节点中心值;
  • 最下方可确定 x轴,y轴,绘制不同参数的散点图,可观察它们的相关性趋势

四、总结

  • 我们可以看到Centisacpe这个插件有12个参数可以选择,那如果我们要得到PPI网络的关键基因,应选哪些参数最为合适呢?这个我们可以从文献中得到答案
  • 今天这篇3.9分 Protein network exploration prioritizes targets for modulating neuroinflammation in Parkinson's disease 的文章,选用 degree 和 betweenness 两个参数,并最后选择高于其平均值的7个基因进行后续分析
  • https://pubmed.ncbi.nlm.nih.gov/33756233/
  • 这篇文献 Bioinformatics analysis of vascular RNA-seq data revealed hub genes and pathways in a novel Tibetan minipig atherosclerosis model induced by a high fat/cholesterol diet
  • 选择degree,betweenness,eigenvector 三个参数,高于其的基因取交集进行分析
  • https://pubmed.ncbi.nlm.nih.gov/32213192/
  • Centiscape,CytoHubba,MCODE 都可以筛选出关键基因或模块,但是使用了不同算法进行,大家可以根据筛选出来的基因数量使用其中一种或多种方法进行选择
  • 参考资料:
  • https://f1000research.com/articles/3-139
  • https://academic.oup.com/bioinformatics/article/25/21/2857/227713

0 人点赞