1 多分组数据
即批量的二分组差异分析,取子集后两两差异分析
分别分析:各自差异分析,差异基因取交集
先合并,后差异分析:
- 原则上选择来自同一芯片平台的GSE
- 不要选择一个全是处理组,一个全是对照组的数据去合并
- 需要处理批次效应 Batch Effet #实验人、实验时间、实验环境及条件均可影响实验结果
处理批次效应:
limma::removeBatchEffect() sva::ComBat()
2 WGCNA(加权共表达网络)
————找到与表型最相关的一组基因
软阈值β的选择
无标度网络和随机网络
无标度网络:存在某几个点与其它点关联更频繁
随机网络:各点间关联程度相近
R^2
无标度网络的拟合度/判定系数,评估拟合模型对观测数据的解释能力
R^2越大,越接近无标度网络,选择使R^2第一次到达0.8/0.85/0.9的β值
β
软阈值,相关性矩阵向邻接矩阵转换的参数
连通性
connectivity:连接度,反应节点的重要程度
mean connectivity:平均连通性,尽可能大,二者中和
基因模块化
对基因进行聚类,每条线代表一个基因,相似的基因被聚到一个分支
不同模块用不同颜色表示,同一模块的基因通常具有类似的功能和表达模式
#灰色代表没有聚类成功
#青色:聚类成功但是基因数量最大
模块与表型之间的关联
相关系数只能计算对应的两列,而表达矩阵是一个表格,而非一列
方法是对一个模块里的基因表达矩阵进行主成分分析,用第一个主成分(PC1)的指标-特征向量(ME)代表一个模块,得到模块MEs矩阵
可以进行拆分获得更细致的图像
MM&GS
GS(Gene Significance)代表模块里每个基因与表型的相关性
MM(Module Membership)代表每个基因和所在模块之间的相关性,表示是否与模块的趋势一致
TOM-拓扑重叠矩阵
基于节点间的连接关系计算节点之间的相似性
应用
至少有15个样本
行为样本,列为基因
不要使用全部基因/差异基因
*推荐方法:按照方差/mad取前3000/5000/8000/前1/4的基因
因子转换成数值
as.numeric(as.factor(pd$genotype))
转换为因子之后自动生成levels,as.numeric()会按照levels的顺序将各个level转换为1, 2, 3 ...
蛋白互作网络
网页工具:string
输入:差异基因;输出:一个ppi图,可以导出数据
放入cytoscape进行网络可视化
寻找hub基因:插件cytoHubba
子网络:插件Mcode
在多样本中每组随机挑选几个样本#实际应用中无需此步,仅为学习
table(geo$pd$disease) set.seed(112233)#固定随机结果,使随机取样的结果可复现 library(dplyr) samples = geo$pd %>% group_by(disease) %>% summarise(m = sample(title,5) %>% pull(m) k = geo%pd%title %in% samples;table(k) exp = geo$exp,k pd = geo$pdk,
引用自生信技能树