GEO数据挖掘—1
一、图表介绍
(一)热图
输入数据是数值型矩阵/数据框,颜色的变化表示数值的大小
(二)散点图
箱线图(单个基因在两组之间的表达量差异)
单个基因的组间比较用箱线图,多个基因用差异分析。
(三)火山图
火山图的解读
logFC是火山图的横坐标,范围基本是个位数的变化。2的几次方。
纵坐标是基因的-log10(pvalue)
Foldchange(FC):处理组平均值/对照组平均值
logFC: FC取 log2
logFC > 0,treat>control,基因表达量上升(而不是上调,上下调要结合p值来定义)
logFC < 0,treat<control,基因表达量下降(而不是下调)
pvalue越小,越有信心认为差异显著,-log10(Pvalue)越大。
(四)主成分分析(PCA图)
主成分分析,旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分)。根据这些主成分对样本进行聚类,代表样本的点在坐标轴上距离越远,说明样本差异越大。
图上的点代表样本(中心点除外),点与点之间的距离代表样本与样本之间的差异。点与点之间的距离越大,代表样本与样本之间的差别越大。
实践中的应用
二、GEO背景知识和表达芯片分析思路
(一)表达数据实验设计
实验目的:通过基因表达量数据的差异分析和富集分析来解释生物学现象
有差异的材料——差异基因——找功能/关联——解释差异,缩小基因范围
(二)数据库介绍
样本:用户提交给GEO的样本数据(GSM)
系列:一个完整的研究,并提供了整个研究的描述,包括对数据的描述,总结分析。(GSE)
平台:用户测定表达量使用的芯片/平台(GPL)
分析思路
(1)找数据,找到GSE编号
(2)下载数据(用R语言的代码可以下载,从中找到两个信息,一个是表达矩阵,一个是临床信息(分组信息))
(3)数据探索(分组之间是否有差异,PCA、热图)
(4)差异分析及可视化(p值,logFC,火山图、热图)
(5)富集分析KEGG、GO
(三)表达矩阵
行名是探针id(约等于基因,探针id需要转换为gene symbol),列名是样本编号(以GSM开头,需要分组信息)。
(四)富集分析
输入数据:差异基因的entrezid
基因的命名方式有很多,常说的基因名:SYMBOL,ENTREZID:是富集分析指定使用的id。这两个命名方式不是一一对应的。
富集分析使用的数据框——KEGG数据库/GO数据库
理解GeneRatio / BgRatio
富集分析是衡量每个通路中的基因在差异基因里是否足够多。
富集分析的可视化:气泡图,柱状图