R语言学习笔记-Day10

2024-07-17 18:16:48 浏览数 (2)

1 多分组数据

即批量的二分组差异分析,取子集后两两差异分析

分别分析:各自差异分析,差异基因取交集

先合并,后差异分析

  • 原则上选择来自同一芯片平台的GSE
  • 不要选择一个全是处理组,一个全是对照组的数据去合并
  • 需要处理批次效应 Batch Effet #实验人、实验时间、实验环境及条件均可影响实验结果

处理批次效应:

limma::removeBatchEffect() sva::ComBat()

2 WGCNA(加权共表达网络)

————找到与表型最相关的一组基因

软阈值β的选择

无标度网络和随机网络

无标度网络:存在某几个点与其它点关联更频繁

随机网络:各点间关联程度相近

R^2

无标度网络的拟合度/判定系数,评估拟合模型对观测数据的解释能力

R^2越大,越接近无标度网络,选择使R^2第一次到达0.8/0.85/0.9的β值

β

软阈值,相关性矩阵向邻接矩阵转换的参数

连通性

connectivity:连接度,反应节点的重要程度

mean connectivity:平均连通性,尽可能大,二者中和

基因模块化

对基因进行聚类,每条线代表一个基因,相似的基因被聚到一个分支

不同模块用不同颜色表示,同一模块的基因通常具有类似的功能和表达模式

#灰色代表没有聚类成功

#青色:聚类成功但是基因数量最大

模块与表型之间的关联

相关系数只能计算对应的两列,而表达矩阵是一个表格,而非一列

方法是对一个模块里的基因表达矩阵进行主成分分析,用第一个主成分(PC1)的指标-特征向量(ME)代表一个模块,得到模块MEs矩阵

可以进行拆分获得更细致的图像

MM&GS

GS(Gene Significance)代表模块里每个基因与表型的相关性

MM(Module Membership)代表每个基因和所在模块之间的相关性,表示是否与模块的趋势一致

TOM-拓扑重叠矩阵

基于节点间的连接关系计算节点之间的相似性

应用

至少有15个样本

行为样本,列为基因

不要使用全部基因/差异基因

*推荐方法:按照方差/mad取前3000/5000/8000/前1/4的基因

因子转换成数值

as.numeric(as.factor(pd$genotype))

转换为因子之后自动生成levels,as.numeric()会按照levels的顺序将各个level转换为1, 2, 3 ...

蛋白互作网络

网页工具:string

输入:差异基因;输出:一个ppi图,可以导出数据

放入cytoscape进行网络可视化

寻找hub基因:插件cytoHubba

子网络:插件Mcode

在多样本中每组随机挑选几个样本#实际应用中无需此步,仅为学习

table(geo$pd$disease) set.seed(112233)#固定随机结果,使随机取样的结果可复现 library(dplyr) samples = geo$pd %>% group_by(disease) %>% summarise(m = sample(title,5) %>% pull(m) k = geo%pd%title %in% samples;table(k) exp = geo$exp,k pd = geo$pdk,

引用自生信技能树

0 人点赞