使用STEM程序分析基因表达的时间趋势并划分聚类群

2021-07-12 15:49:38 浏览数 (1)

使用STEM程序分析基因表达的时间趋势并划分聚类群

前两篇分别介绍了使用Mfuzz包、TCseq包在具有时间序列特点的转录组、蛋白质组数据中分析基因或蛋白表达的时间趋势,并将具有相似表达模式的基因或蛋白划分聚类。这两种方法都是R语言程序包。但如果您不习惯用R,但仍期望实现类似的功能(时间趋势分析、聚类以及可视化作图等),本篇再继续介绍一个图形界面程序,短时间序列表达挖掘器(Short Time-series Expression Miner,STEM),它在很多文献中也常见到。

STEM是一个Java程序,可用于聚类、比较和可视化来自短时间序列(一般在8个时间点以内)的基因表达数据,识别重要的时间表达谱以及与这些谱相关的基因。同时,STEM还可以对具有相同时间表达模式的基因集执行功能富集分析,例如Gene Ontology(GO)富集。事实上,只要是带有“梯度”的数据,理论上都可以使用STEM进行分析,而非仅局限于时间序列,如剂量响应试验等,按“梯度”顺序排列好样本后也可以作为STEM的输入。

接下来简单展示STEM的使用。

安装STEM程序

STEM官网:http://www.cs.cmu.edu/~jernst/stem/

运行STEM需要Java环境支持,需要首先确保您电脑中已经安装了Java。如果尚未安装,可在STEM官网的主界面点击对应的链接下载安装Java。

之后,在STEM官网中点击对应的链接下载STEM程序包。下载下来是一个压缩包形式,解压后点击其中的“stem.jar”即可执行STEM主程序。

使用STEM分析基因表达的时间趋势并划分聚类群的简单演示

1、数据准备

首先您需要准备带有“梯度”的数据,这里以一个基因表达值的时序数据为例,第一列是基因名称,随后几列是各基因在各时间样本中的表达值信息,时间样本按时间顺序依次排列。

2、数据加载和STEM参数设置

在STEM主界面中加载数据,设置合适的参数后,运行分析。

界面的第一部分“1. Expression Data info”中,点击“Browse”加载数据。点击“View Data File”可查看已加载的数据,如果您有生物学重复,可再通过“Repeat Data”指定加载。随后,可选指定一种数据标准化方式。

界面的第二部分“2. Gene info”用于指定加载基因注释信息文件,以便在后续获得聚类后,对目标聚类群内的基因集执行富集分析,如GO、KEGG功能分析等。这里先忽略此功能,我们先将此处留空,下文会再提到这一点。

界面的第三部分“3. Option”用于设置聚类选项,如聚类方法选择(STEM聚类、或者K-means聚类)以及聚类参数等(具体细节随方法而不同)。在“Advanced Options”中可修改更多高级参数,如过滤基因选项、与评估聚类重要性有关的选项、与基因注释有关的选项等。

设置完毕后,点击第四部分的“Execute”执行分析。

3、时间趋势分析和聚类结果

STEM自动弹出分析结果,显示了基因表达的时间动力学聚类的概况。每个折线图代表一个聚类群,相似时间动力学模式的基因被划分到同一聚类群中,折线图趋势代表了该聚类群中基因随时间表达的整体走向。对于具有统计意义(显著时间特征)的聚类群,以彩色背景突出。每个折线图左上方数字是该聚类群的名称,点击特定的折线图将显示该聚类群的统计显著性p值、所包含基因的数量以及每个基因随时间表达的趋势折线图。

在界面中点击“Main Gene Table”,即可将所有基因划分的聚类群名称连同它们的表达值信息一并输出。

若期望同时对各聚类群的基因执行功能富集分析

如果您恰好分析的是基因表达谱数据,STEM也基于超几何分布的原理提供了对目标基因集执行富集分析的方法,但是基因功能注释(如GO、KEGG等)信息需要手动添加。

1、数据准备

除了准备基因表达值矩阵外,还需要提供基因的功能注释分类信息,例如这里添加了基因的GO功能注释表。基因注释表无需表头,共两列,第一列是基因名称,第二列是基因功能注释。基因注释表原则上应包含背景基因在内。

2、数据加载和STEM参数设置

程序界面中,“1. Expression Data info”和“3. Option”的数据加载、标准化以及聚类参数选择等,和上述操作过程一致,不再多说。

但此时需要在“2. Gene info”中指定加载基因注释信息文件,以便在后续获得聚类后,对目标聚类群内的基因集执行富集分析。

设置完毕后,点击“Execute”执行分析。

3、时间趋势分析和聚类结果

类似地,对于聚类结果的描述可参考上文。

不过此时,将在各聚类群中增添了基因的功能富集分析结果,此处是以GO富集为例的展示。在结果界面点击“Profile GO table”即可查看GO富集分析的统计详情,以及输出至本地。

其它功能

以上仅对STEM执行时序数据的聚类以及基因功能富集分析的方法做了简单演示。更多的功能由于使用不多,这里不再提及。例如在上文STEM的主程序界面中,在“2. Gene info”中也提供了基因位置信息的录入窗口,可据此绘制目标基因在染色体中的分布图(如下样式,来自STEM操作手册的示例图)。如果您对更多功能感兴趣,可自行学习STEM操作手册(http://www.cs.cmu.edu/~jernst/stem/STEMmanual.pdf)。

0 人点赞