GEO数据挖掘—1

2023-03-16 22:48:23 浏览数 (2)

GEO数据挖掘—1

一、图表介绍

(一)热图

输入数据是数值型矩阵/数据框,颜色的变化表示数值的大小

(二)散点图

箱线图(单个基因在两组之间的表达量差异)

单个基因的组间比较用箱线图,多个基因用差异分析。

(三)火山图

火山图的解读

logFC是火山图的横坐标,范围基本是个位数的变化。2的几次方。

纵坐标是基因的-log10(pvalue)

Foldchange(FC):处理组平均值/对照组平均值

logFC: FC取 log2

logFC > 0,treat>control,基因表达量上升(而不是上调,上下调要结合p值来定义)

logFC < 0,treat<control,基因表达量下降(而不是下调)

pvalue越小,越有信心认为差异显著,-log10(Pvalue)越大。

(四)主成分分析(PCA图)

主成分分析,旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分)。根据这些主成分对样本进行聚类,代表样本的点在坐标轴上距离越远,说明样本差异越大。

图上的点代表样本(中心点除外),点与点之间的距离代表样本与样本之间的差异。点与点之间的距离越大,代表样本与样本之间的差别越大。

实践中的应用

二、GEO背景知识和表达芯片分析思路

(一)表达数据实验设计

实验目的:通过基因表达量数据的差异分析和富集分析来解释生物学现象

有差异的材料——差异基因——找功能/关联——解释差异,缩小基因范围

(二)数据库介绍

样本:用户提交给GEO的样本数据(GSM)

系列:一个完整的研究,并提供了整个研究的描述,包括对数据的描述,总结分析。(GSE)

平台:用户测定表达量使用的芯片/平台(GPL)

分析思路

(1)找数据,找到GSE编号

(2)下载数据(用R语言的代码可以下载,从中找到两个信息,一个是表达矩阵,一个是临床信息(分组信息))

(3)数据探索(分组之间是否有差异,PCA、热图)

(4)差异分析及可视化(p值,logFC,火山图、热图)

(5)富集分析KEGG、GO

(三)表达矩阵

行名是探针id(约等于基因,探针id需要转换为gene symbol),列名是样本编号(以GSM开头,需要分组信息)。

(四)富集分析

输入数据:差异基因的entrezid

基因的命名方式有很多,常说的基因名:SYMBOL,ENTREZID:是富集分析指定使用的id。这两个命名方式不是一一对应的。

富集分析使用的数据框——KEGG数据库/GO数据库

理解GeneRatio / BgRatio

富集分析是衡量每个通路中的基因在差异基因里是否足够多。

富集分析的可视化:气泡图,柱状图

0 人点赞