拥有这个R包,只需三步帮你找到差异表达基因

2020-06-24 18:02:37 浏览数 (1)

目前,利用大量的微阵列或RNA-Seq技术来探索不同条件(例如治疗或疾病)之间基因表达的差异是研究疾病的最简单方法。但是,如何快速的从测序得到的“海量”的基因集群中发现差异表达的基因(DEGs)仍然是一项非常重要的任务。

高通量测序可以从相对较少的样本中得到大量的基因表达结果,为了识别DEGs列表,微阵列显著性分析(SAM)采用modified t检验,引入一个因子来最小化基因变异的影响。limma包也提供了一种完整的分析基因表达的方法。今天为大家推荐另一种基因表达分析方法,即ORdensity(https://github.com/rsait/ORdensity)。

ORdensity通过返回三个邻近假阳性异常值(outlier)和密度(density)相关的测量值(OR、FP和dFP),可以以较高的分类精度识别出DEGs(引用)。OR是用来识别DEGs的索引,FP是计算得到的K-近邻假阳性(positives in a neighbourhood),而dFP是排列抽样得到的K-近邻假阳性的密度(density of false positives in a neighbourhood)。随后根据这些指标对潜在DEGs进行聚类,来区分mean FP和dFP中得分排列情况相似的假阳性基因与差异表达基因。

相较于其他分析方法,ORdensity可以通过并行计算来大量节省分析时间,分析结果鲁棒性更好。同时ORdensity使用方法极为简便,仅仅通过输入数据、创建对象和提取DEGs三步即可完成差异基因的分析。下面就给大家简单介绍一下使用方法吧。

1

安装ORdensity

首先,使用devtools工具从github下载安装ORdensity包,随后加载。

ORdensity依赖cluster包,并使用foreach进行并行运算。

2

导入数据

我们使用simexpr包的基因集数据进行演示,数据是在1000个基因集中模拟100个差异表达基因,包含62个变量的1000个观察值。数据框每行对应一个基因,并包含DEgen、gap、30个阳性病例和30个阴性病例的基因表达值。差异表达基因的DEgen为1,非差异表达基因的DEgen为0.

3

创建对象及分析

创建ORdensity分析基因集的S4对象(parallel命令为并行处理,nprocs设置计算机进程数,seed设置随机数种子,使结果具有重复性):

ORdensity计算速度很快,等待一分钟左右即可。接下来通过summary命令对生成的对象进行概括描述:

ORdensity发现,最佳数据聚类有2个聚类。同时,summary结果告诉我们数据的估计最优聚类,每个聚类中的基因数量,以及它们的名称。根据OR统计量的平均值,按递减顺序对聚类进行排序。我们发现第一个基因簇的平均值(61.8986)高于第二个簇的平均值(10.510895),这意味着第一个簇更有可能由真差异表达基因组成,而第二个簇更有可能由假阳性基因组成。而对于其他的集群很可能是假阴性。

4

提取差异基因

如果我们想通过ORdensity提取检测到的差异表达基因,可以使用findDEgenes命令汇总找到的基因簇的列表、每个基因相对应的OR统计值,以及一个指示该基因是否满足选择要求的指标。可以进行两种类型的差异表达基因选择:

ORdensity strong selection: 取表达量较大且FP和dFP均为0的差异表达基因;

ORdensity relaxed selection: 取OR值较大以及FP、dFP值较小的基因作为差异表达基因。

该工具使用PAM聚类过程,目的是区分那些高OR得分、低meanFP和density的假阳性,与通过boostrapping获得假阳性的方法相似。

结果表明,最佳聚类仅由两个聚类组成

根据经验,预期的差异表达基因会显示高OR值,以及低meanFP值和密度值。我们还可以分析每个基因簇中的单个基因,并通过聚类的方法区分假阳性。

"Strong"和"Relaxed"显示被鉴定为差异表达的基因(DE),S代表strong selection (FP=0) ,F代表relaxed selection (FP < expectedFalsePositives) 。

5

图形绘制

我们可以通过plot命令简单绘制一个基于OR(垂直轴),FP(水平轴)和dFP(圆的大小与其值成反比)表示潜在差异表达基因的图。满足relaxed selection的差异基因用三角形绘制:

默认情况下,是ORdensity方法计算选择的最优集群数,可以使用k来指定其他数量的集群值。

ORdensity还提供了k值对轮廓测度(silhouette measure)的曲线图:

图中轮廓系数(silhouette)越接近1,则代表聚类结果越合理。

微阵列/转录组数据中的一个重要问题是如何从数千个基因中选择少量但可能是疾病关键因素的差异表达(DE)基因。如果对每个基因进行单独分析,则有许多假设需要检验,而使用多重比较校正方法,会最终导致cutoff太小。

此外, DEGs的选择还需要具有可重现性。ORdensity通过检测异常值来获得DE基因的可重现选择,可以从大量基因(< 20,000)的数据集中准确识别DEGs。同时ORdensity的分析方法更为创新,有助于识别用其他技术(如limma等)检测不到的有趣基因,同时避免了单基因识别的一些缺点,计算结果更为稳定。核心功能“findDEgenes”提供了三种与邻近离群值和错误率相关的度量,即索引OR以及FP和dFP。

同时“ preclusteredData”和“ plot”有助于用户更好的探索和理解分析结果。ORdensity简单易懂,具有较强的鲁棒性,适用于差异表达基因的识别。此外,ORdensity还允许用户修改分位数的权重、更改集群方法和集群数量、设置随机种子来保证数据的准确性和可重复性。文章“ORdensity: user-friendly R package to identify differentially expressed genes.”于2020年4月份发表在BMC Bioinformatics上,内容有详细的算法及用法的介绍,同时利用该方法进行DEGs分析的研究已经多有发表(见附[1-3])。大家不妨来学习体验一下吧。

附:

[1] A Ghosh, A Som. RNA-Seq analysis reveals pluripotency-associated genes and their interaction networks in human embryonic stem cells. Computational Biology and Chemistry, 2020.

[2] F Ramzan, RF D'Souza, BR Durainayagam, et al. Inflexibility of the plasma miRNA response following a high-carbohydrate meal in overweight insulin-resistant women. Genes & nutrition, 2020.

[3] O Shetta, M Niranjan. Robust subspace methods for outlier detection in genomic data circumvents the curse of dimensionality. Royal Society open science, 2020.

0 人点赞