常见的科研实验设计都是二分组,取决于大家的科研假说啦。比如如果你想看药物处理前后的基因全局转录水平变化,设计两个分组,每个分组3个样本就足以应付发表。
基于表达量矩阵的差异分析过程可以看我8年前的芯片教程,推文在:
- 解读GEO数据存放规律及下载,一文就够
- 解读SRA数据库规律一文就够
- 从GEO数据库下载得到表达矩阵 一文就够
- GSEA分析一文就够(单机版 R语言版)
- 根据分组信息做差异分析- 这个一文不够的
- 差异分析得到的结果注释一文就够
针对不同表达量矩阵格式,里面有大量的包可以选择。因为现阶段传统bulk转录组测序项目成为了标准品,无论大家在哪个公司测序都是几百块钱一个样品,简单的3分组的6个样品,就包括了定量和普通差异分析富集分析的服务,因为都是流程化的。随着国产华大基因的测序服务的崛起,以及illumina的更新换代,测序成本一降再降。2021的时候还是:明码标价之转录组常规测序服务(仅需799每个样品) ,到2022就是常规转录组测序加分析仅需单价549的12个样品起。
当然了,二分组虽然最经济最简洁,但是不差钱的课题组也很多。药物处理可以加上时间序列,也可以加上浓度梯度,也可以比较不同药物的异同点。如果是多分组的比较,大概率是韦恩图展现异同点,而这个过程的前提也是先差异,然后交集。最近看到了一个4个分组不做差异分析取交集,文章是:《Expression patterns and prognostic potential of circular RNAs in mantle cell lymphoma: a study of younger patients from the MCL2 and MCL3 clinical trials》
因为做的并不是常规的转录组测序,而是比较小众的circRNA测序:
- https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE159808
circRNA测序
虽然我自己没有circRNA测序,不过几年前我们在生信技能树已经系统性的总结了circRNA的相关背景知识:
- 首先了解一下circRNA背景知识
- circRNA芯片分析的一般流程
- circRNA-seq分析的一般流程
- ceRNA-芯片分析的一般流程
- circRNA_ID转化
这个GSE159808数据集是20个样品,看起来是分成2组:
代码语言:javascript复制GSM4847770 MCL-1
GSM4847771 MCL-3
GSM4847772 MCL-5
GSM4847773 MCL-6
GSM4847774 MCL-7
GSM4847775 MCL-8
GSM4847776 MCL-9
GSM4847777 MCL-12
GSM4847778 MCL-13
GSM4847779 MCL-14
GSM4847780 MCL-15
GSM4847781 MCL-18
GSM4847782 MCL-19
GSM4847783 MCL-20
GSM4847784 Healthy-Reactve-LN1
GSM4847785 Healthy-Reactve-LN2
GSM4847786 Healthy-NBC11
GSM4847787 Healthy-NBC12
GSM4847788 Healthy-NBC21
GSM4847789 Healthy-NBC24
但是病人本身是可以分级的, 高中低的风险可以区分成为3组, 我本来以为是里面的应该是各个分组的病人去跟正常对照差异,然后比较,结果诡异的是文章就对每个样品找了 0.05 RPM cut-off used to qualify circRNAs as “high-abundance circRNAs”. 然后展现每个分组的合格的circRNAs交集,并没有差异分析:
并没有差异分析
学徒作业
根据文章里面提到的这个GSE159808数据集的分组:
- naive B cells (green; n = 6),
- MIPI-C low/low-intermediate (L-LI) risk (red; n = 4),
- MIPI-C intermediate-high (HI) risk (orange; n = 5)
- MIPI-C high (H) risk (blue; n = 5)
进行各个分组的病人去跟正常对照差异,而且找出来那些变化趋势不一样的circRNA列表,使用mfuzz包,重点关注随着疾病风险增高而逐渐增高或者逐渐降低的那些。