GEO数据库学习

2024-07-23 15:55:50 浏览数 (2)

  • 数据库介绍
    • platform-----sample------series
      • sample:用户提交给GEO的样本数据 GSM开头
      • series:一个完整的研究,提供了整个研究的描述,包括对数据的描述,总结分析 (GSE开头)
      • platform:用户测定表达量使用的芯片/平台(GPL)开头;不同开头的表达芯片,资料不同
        • 问题:
          • 想从文章找到作者用的数据集编号,开头为GSE
          • 芯片产品:GPL
          • 样本的编号 GSM
    • 基因表达芯片的原理:探针的表达量代表基因的表达量
    • 分析思路
      • 找数据,找到GSE编号
      • 下载数据:(表达矩阵)和临床信息(分组信息)
      • 数据探索:分组自建是否有差异:PCA图和热图
      • 差异分析以及可视化:1.P值,logFC 2.火山图和热图
      • 富集分析:KEGG和GO
    • 表达矩阵:
      • 探针:转换为gene symbol
      • 样本编号:需要分组信息
    • 富集分析
      • 输入数据:差异基因的entrezid
      • symbol:常说的基因名
      • entrezid:富集分析指定用的
      • 两者并非一一对应的,一对二,三等
    • 富集分析
      • KEGG:pathway hsa03030
      • GO数据库:细胞组分 分子功能 生物功能
      • Y叔和clusterProfiler:写出了富集分析的R包
      • 富集分析的结果:
        • 十列的表格:ID;通路编号 pvalue:衡量是否显著,GENEID:哪些属于这条通路,后米娜及逆行计数
        • 成果更新的时候BgRatio会发生改变:该通路有多少个基因/数据库中所有通路有多少个基因
        • Generatio:差异基因多少个属于该通路/差异基因中有多少个被数据库收录(差异基因通过差异分析获得)
      • 富集分析的理解:
        • kegg数据库里的基因,相同颜色代表同一种通路;该通路一共有8个,基因库一共有86个基因,8/86是BgRatio
        • 差异基因一共
        • 衡量每个通路里面的基因在差异基因里是否足够多;多就是富集
          • 举例:BgRatio 35/13000,Generatio 25/1000:总中奖率是第一个值;你做出来的值是第二个值;第二个值明显高,为富集
          • 把差异基因和通路联系起来
      • 富集分析的可视化:第一张横坐标为GeneRatio;第二张横坐标为count;还可以分面;还可以一张图展现上调基因和下调基因;
      • 不想解释的东西,尽量不要展示:调整p值/拆开图
      • 展示通路之间的共同基因:基因不一定属于同一个通路:可能有 比较重要的功能
      • 展示GOterm之间的关系

0 人点赞