一文解决多个不同平台差异分析结果合并

介绍：

原因：随着技术平台的不断发展，许多已发布的实验数据集可以被不同统计方法整合，使得可以同时使用各种方法来解决同一研究问题。但是为了从所有这些选择中获得最大的收益，我们需要以公正的方式整合它们的结果，例如不同实验的差异分析结果。优先排序的基因列表是基因组数据分析应用程序中常见的结果表示方法。因此，秩聚合方法可以成为这一类问题的有用且通用的解决方案。

结果：标准等级的合并方法通常不适用于具有比较大的噪声的基因表达矩阵。因此作为一种补救措施，有研究者提出了一种新颖的秩聚合（RRA）方法。该方法可以检测出在不相关输入的零假设下始终比预期更好地排名的基因，并为每个基因分配显着性得分。潜在的概率模型使算法参数自由且对异常值，噪声和错误具有鲁棒性。重要性评分还提供了一种严格的方法，可以仅将统计相关的基因保留在最终列表中。这些特性使该方法在许多环境下都具有强大的吸引力。

示例：

背景

这项研究的目的是通过组合数据库筛选肺癌的预后基因，预测和探索遗传标志物在肺癌发展中的可能机制和临床价值。

材料和方法

通过使用R语言从Gene Expression Omnibus和The Cancer Genome Atlas数据库收集并进行计算，研究了两个基因表达芯片（GSE3268和GSE10072数据集）中的常见差异基因。通过以下方法发现了五个基因组成标记：核糖核苷酸还原酶调节亚基M2 [RRM2]，滋养层糖蛋白[TPBG]，跨膜蛋白酶丝氨酸4 [TMPRFF4]，氯离子胞内通道3 [CLIC3]和WNT抑制因子-1 [WIF1]。进一步筛选基因模型的组合使用逐步Cox回归函数。通过分析基因标志物与肺癌临床病理参数之间的相关性及其对预后的影响，选择了TPBG基因进行差异表达分析，并通过基因组富集分析（GSEA）预测了其可能的途径和功能及其蛋白相互作用网络。使用检索工具检索相互作用基因/蛋白质（STRING）数据库；然后，通过定量PCR和Oncomine数据库验证TPBG在肺癌细胞和组织中的表达差异。

结果

5种遗传标志物的表达水平与生存预后相关，遗传标志物高表达患者的总生存时间短于低表达者（P <0.001）。 GSEA表明，这些高表达样品丰富了细胞粘附，细胞因子受体相互作用途径，细胞外基质受体途径，粘附途径，骨架蛋白调节，癌症途径和TGF-β途径的基因组。

结论

五个基因组成标志物的高表达是肺癌的不良预后因素，并可作为预测肺癌患者转移和预后的有效生物标志物。

材料和方法

从GEO数据库中识别DEG 从GEO数据库中选择了GSE3268和GSE10072数据集。 GSE3268数据集是鳞状细胞肺癌患者的细胞系数据。每对样本代表一名患有鳞状肺癌的患者。一种来自癌细胞，另一种来自正常细胞。有五个病人，每个病人有两个阵列。 GSE10072数据集由58个肺腺癌组织和49个对照组成，所有这些都是新鲜的冷冻组织样本。然后，使用“ limma”，“ RobustRankAggreg”。 R语言包中，根据调整后的P <0.01和| log FC |> 2作为阈值，在两个芯片中找到共同的差异基因。
基因功能和途径分析对预测的目标基因进行基因本体论（GO）评估，并使用Metascape数据库（http://metascape.org/gp/index.html#/main/step1）进行途径富集分析。
TCGA数据库和数据收集我们将临床参数和生存数据保留在TCGA肺腺癌数据集中；共有535个肿瘤组织样本。我们将差异基因与TCGA数据结合起来，并对mRNA进行了单因素回归。然后，基于基于Akaike信息标准（AIC）的表达值的线性组合，我们使用了逐步Cox回归分析来构建由预后相关mRNA组成的预后标记。接下来，我们使用以下公式构建预后风险评分模型：风险评分= expGene1×βGene1 expGene2×βGene2 expGenen×βGenen（exp，预后基因表达水平；β，多元Cox回归模型回归系数）。
基因集富集分析（GSEA）根据TPBG表达从高四分位到低四分位对表达谱数据进行排序，并选择数据的前25％和后25％作为高和低组。然后，我们下载了c2.cp.kegg。 GSEA网站和MsigDB数据库中的v6.1.symbols.gmt和c5.all.v6.1.symbols.gmt数据集，并使用GSEA 3.0版软件分析了我们的数据。另外，我们根据表达数据进行了富集分析。我们设置了1,000个分析的随机组合，产生了高表达组和低表达组所涉及的功能。
构建蛋白质相互作用网络我们使用了检索相互作用基因/蛋白质（STRING）网站的搜索工具来绘制TPBG蛋白质相互作用网络。
Oncomine数据库提取 Oncomine数据库（http://www.oncomine.org）是目前全球最大的癌基因芯片数据库和集成数据挖掘平台，用于挖掘癌症基因信息。迄今为止，该数据库已经收集了715个基因表达数据集和86,733条癌组织和正常组织样本数据。 Oncomine数据库已用于常见癌症类型及其各自正常组织的差异表达分类，以及临床和病理分析。
人类蛋白质图谱人类蛋白质图谱（https://www.proteinatlas.org/）在特定的人体组织中提供了大量的转录组学和蛋白质组学数据，由组织图谱，细胞图谱和病理学图谱组成。该数据库提供了跨44种不同正常组织和器官以及20种最常见癌症类型的细胞特异性定位信息。另外，正常人组织和肿瘤组织中基于免疫组织化学（IHC）的蛋白质表达模式被用于通过使用来自人类蛋白质图谱的数据来生成表达图。在这项研究中，我们利用这个数据库来探索TPBG基因在正常肺组织和癌组织中的蛋白表达。
GEO数据集过滤差异基因我们使用“ RobustRankAggreg”选择了两个芯片共有的80个显着上调和下调的差异基因，包括40个高表达基因和40个低表达基因。 R语言包用于可视化这些基因（图1）。

数据库 sql 硬件开发 r语言

0 人点赞