探针注释
一个探针对应多个基因--非特异性探针:去除
探针注释:多个探针对应一个基因
1.随机去重
2.保留行和/行平均值最大的探针
3.取多个探针的平均值
富集分析
输入数据:差异基因的entrezid
SYMBOL:常说的基因名
ENTREZID:富集分析指定用
两者并非一一对应,损失/增加部分基因属于正常
富集分析-KEGG数据库
KEGG(Kyoto Encyclopedia of Genes and Genomes)是系统分析基因功能、基因组 信息数据库,它有助于研究者把基因及表达信息作为一个整体网络进行研究,以“理解生物系统的高级功能和实用程序资源库”著称。
富集分析-GO数据库
基因本体(Gene ontology,Go)是一个在生物信息学领域中广泛使用的本体。1998 年由研究三种模式(吴蝇、小鼠和酵母)基因组的研究者共同发起组织了一个称为基因本体联盟的专业团队。创建基因本体的初衷是希望提供一个可具代表性的规范化的基因和基因产物特性的术语指绘或词义解释的工作平台 。现在已包含数十个动物、植物、 微生物的数据库。基因本体涉及的基因和基因产物词汇分为三大类,涵盖生物学的三个 方面:
细胞组分(cellular component):细胞的每个部分和细胞外环境。
可以描述为分子水平的活性,如催化或结合活性分子功能(molecular function):
生物过程(biological process): 生物过程系指由一个或多个分子功能有序组合而产生的系列事件。其定义有广义和狭义之分,在词义上可以区分为泛指和特指。一般规律 是,一个过程是由多个不同的步骎组成。
通过将差异基因做 G0 富集分析,可以把基因按照不同的功能进行归类,达到对基 因进行注释和分类的目的。
富集结果解释:衡量每个通路里的基因在差异基因里是否足够多
富集不到的补救秘籍
1.调整10gFC、pvalue阈值,以改动差异基因数量
2.不使用默认的padi(富集的),而是用原始p值,在文章里说清楚即可。
3.换富集方法,GSEA也可以做kegg富集
4.调参数maxGsSize=500,默认参数,表示500个基因以上的通路不考虑,可以调大至5000
复杂数据及其分析
多分组数据:一个对照组,2 实验组
- 两两差异分析
- 向量取子集
- 矩阵取子集多数据联合分析分别分析:各自差异分析,差异基因取交集
先合并,后差异分析:
原则上选择来自同一芯片平台的GSE不要选择一个全是处理组,一个全是对照组的数据去合并 要处理批次效应 Batch effect加权共表达网络WGCNAWGCNA找到与表型最相关的一组基因蛋白互作网络网页工具string输入:差异基因 输出:一个ppi图,可以导出数据放入cytoscape进行网络可视化寻找hub基因 -插件cytohHubba 子网络,插件Mcode