- 数据库介绍
- platform-----sample------series
- sample:用户提交给GEO的样本数据 GSM开头
- series:一个完整的研究,提供了整个研究的描述,包括对数据的描述,总结分析 (GSE开头)
- platform:用户测定表达量使用的芯片/平台(GPL)开头;不同开头的表达芯片,资料不同
- 问题:
- 想从文章找到作者用的数据集编号,开头为GSE
- 芯片产品:GPL
- 样本的编号 GSM
- 问题:
- 基因表达芯片的原理:探针的表达量代表基因的表达量
- 分析思路
- 找数据,找到GSE编号
- 下载数据:(表达矩阵)和临床信息(分组信息)
- 数据探索:分组自建是否有差异:PCA图和热图
- 差异分析以及可视化:1.P值,logFC 2.火山图和热图
- 富集分析:KEGG和GO
- 表达矩阵:
- 探针:转换为gene symbol
- 样本编号:需要分组信息
- 富集分析
- 输入数据:差异基因的entrezid
- symbol:常说的基因名
- entrezid:富集分析指定用的
- 两者并非一一对应的,一对二,三等
- 富集分析
- KEGG:pathway hsa03030
- GO数据库:细胞组分 分子功能 生物功能
- Y叔和clusterProfiler:写出了富集分析的R包
- 富集分析的结果:
- 十列的表格:ID;通路编号 pvalue:衡量是否显著,GENEID:哪些属于这条通路,后米娜及逆行计数
- 成果更新的时候BgRatio会发生改变:该通路有多少个基因/数据库中所有通路有多少个基因
- Generatio:差异基因多少个属于该通路/差异基因中有多少个被数据库收录(差异基因通过差异分析获得)
- 富集分析的理解:
- kegg数据库里的基因,相同颜色代表同一种通路;该通路一共有8个,基因库一共有86个基因,8/86是BgRatio
- 差异基因一共
- 衡量每个通路里面的基因在差异基因里是否足够多;多就是富集
- 举例:BgRatio 35/13000,Generatio 25/1000:总中奖率是第一个值;你做出来的值是第二个值;第二个值明显高,为富集
- 把差异基因和通路联系起来
- 富集分析的可视化:第一张横坐标为GeneRatio;第二张横坐标为count;还可以分面;还可以一张图展现上调基因和下调基因;
- 不想解释的东西,尽量不要展示:调整p值/拆开图
- 展示通路之间的共同基因:基因不一定属于同一个通路:可能有 比较重要的功能
- 展示GOterm之间的关系
- platform-----sample------series
GEO数据库学习
2024-07-23 15:55:50
浏览数 (2)