重磅：GEO数据库挖掘教程（4）一体化分析代码（带视频+R代码分享）

前面三期的课程中，我们从GEO基础知识、快速锁定目标数据以及R语言基础这三个方面讲解了GEO数据挖掘的背景知识，课后大家也都很积极地找到折耳猫小姐姐和小猎豹，提了很多的问题，最频繁的提问就是：“何时出下一期”、“什么时候教数据分析”，可见大家的学习热情都非常高涨，对GEO数据挖掘非常感兴趣。今天，我们就来讲GEO数据挖掘的终极教程。

众所周知，GEO里面大部分是表达谱数据，而表达谱的数据挖掘涉及众多的分析方法和繁琐的分析步骤，这里给大家做了一个大致的流程图，以便大家有一个整体而全面的认知。简而言之，GEO的数据分析就分为两大步骤：（1）从原始数据到基因表达值，这里要经过繁琐的数据前处理过程；（2）从表达值到功能分析（差异基因/聚类/功能富集等）。下面我们就按部就班地进行讲解。

Step1：从原始数据到表达值

这一步骤是相对比较简单、比较固定的流程，但是其在数据分析过程中的地位至~关~重~要！因为后续所有的高级分析都是建立在表达值的基础上，如果这里出了问题，那么后续所有分析都会产生极大的偏差。在GEO中，所有的data series除了上传原始数据外，还会有一个已经处理好的表达值矩阵，这个是GEO强制要求submitter在上传过程中必须上传的，就存储在series matrix file中。我们在分析数据的时候，可以直接使用这个series matrix file作为表达值进行后续的分析。

Step2：从表达值到功能分析

有了表达值以后，我们就可以“畅所欲为”了。常见的后续分析有：差异表达分析、层次聚类，主成分分析等，主要根据我们的分析目的来定。现在，我们来对他们进行逐个讲解。

a. 差异表达分析

这个分析相对较好理解，其实就是两个不同分组之间基因表达值有差异的基因。一般通过两个指标去进行筛选：Fold change（变化倍数，简称FC），以及P value（P值）。常用的FC阈值为2，P value的阈值为0.05或者0.01。

b. 层次聚类分析

这个也是表达谱分析中的常用套路，其理论基础是：基因之间存在共表达，在表达谱上具有相似性的基因或样本可能具有潜在的相关性。在聚类分析中，基因被看作是一个向量，通过元素与元素之间的距离，将不同的元素归类。通过层次聚类，我们把表达谱相近似的基因或者样本富集在一起，然后再对特定的基因进行功能分析，或者对临床样本进行表型的挖掘。

c. 主成分分析

Principle Component Analysis, PCA。属于降维分析的一种，将样本从输入空间通过线性或非线性映射到一个低维空间，减少了后续步骤处理的计算量，当降至三维以下时还可用于可视化技术，从而发挥人在低维空间感知上的优点，发现数据集的空间分布、聚类性质等结构特征。PCA对于分析样本的相关性具有自己独到的优势。

好了，讲了这么多原理，是不是觉得有点头晕脑胀呢，大家可能会想：讲了这么多，还没有教我们怎么做，有什么用？

嗯～～那我就要放干货了，各位请接招吧。为了方便大家对GEO数据进行深入的分析挖掘，我们开发了一款高效、集成的数据分析流程，整合在一个R代码中，大家只需输入数据集的几个相关编号即可。

我给这个代码起了一个非常炫酷的名字：GEO Terminator。可能有点夸张，但是绝对实用。我们要做的就是到GEO找到你要分析的数据，不知道怎么找的，请参见我们的上一篇（GEO数据库挖掘（2）--快速锁定目标数据），输入GSExxx，以及检测平台GPLxxx，自定义一下要分析的样本表型，然后全选（Ctrl A），运行（Ctrl Enter）即可。整个代码运行可能需要几分钟到十几分钟的时间，根据你的数据大小和网速快慢而定，最终结果是这样的：

猎豹一出手，便知有没有~。只需输入几个编号，所有分析全自动运行，包括：（1）质控箱线图，（2）差异表达基因，（3）层次聚类热图，（4）差异表达火山图，（5）主成分分析散点图，囊括表达谱数据挖掘的所有基本分析。

相信大家都参加在线上或者线下的诸多收费型培训，这种技术含量超高的“黑科”的价格不菲，现在睁大双眼，握紧水杯，科研猫正式宣布，免费分享此代码，惠及更多被科研折磨的脱毛的猫猫们~~

视频操作

腾讯视频地址：

https://v.qq.com/x/page/i08494wgw5o.html

如果你在操作过程中还是需要问题

点击下方留言板留言

可直接联系到小猎豹师兄哦~

数据挖掘数据分析

0 人点赞