RNAseq原理

2022-10-25 20:03:07 浏览数 (1)

背景

实验设计

RNAseq 实验设计评估

RNAseq 实验需要多少样本,每个样本需要多少测序数据?RNAseq 主要考虑低丰度的基因是否能够被检测到,定量的结果是否准确。如果想要检测到低丰度表达,那么就需要足够的测序量,定量结果准确需要较多的生物学重复。

判定差异分析结果可靠性的指标主要包括假阳性,真阳性以及假阳性率和真阳性率几个指标。

假阳性与真阳性:如果某个基因在 RNAseq 分析结果显示为差异表达,但 qPCR结果表明表达差异不显著,则认为是假阳性,反之则为真阳性。

假阳性率(FPR):真实非差异表达中基因中,被错误判定为差异表达基因的比率,FPR 越低越好。

真阳性率(TPR):真是差异表达的基因中,被正确判定为差异表达基因的比率,TPR 越高越好。

零假设检验

一、生物学重复的影响

文章中介绍,在单样本测序量保持不变的情况下,随着生物学重复数(n)的提高,差异表达分析的假阳性率(FPR)逐渐趋于稳定,真阳性率(TPR)不断提高。

二、测序数据量的影响

在 RNAseq 实验中,在一定的生物学重复数(n)的情况下,随着单样本测序量(Depth)的提高,假阳性率(FDR)和真阳性率(TPR)都只是有限的提高。

如果 Depth 等于 25%不变,当 n 从 2 提高到 12,TPR 的提高则是非常的明显,因此,测序深度对结果改善效果并不如增加生物学重复。

测序数据量的影响

三、生物学重复与测序量的最佳组合

该如何选择合适的样本数和测序数据量呢?在总数据量不变的情况下(总数据量通常代表总预算),如何选择生物学重复与测序量的最佳组合。

如果生物学重复如上图所示,保持样本数不变,单个样本的数据量不断降低,TPR 的降低十分缓慢,例如当 n=3 时,单个样本的数据量从 100%降低到 15%,TPR 的值一直处于平台期,从 9%降低到 5%。

四、饱和度评估

饱和度评估:通过随机抽取不同数据的 reads,计算检测到的基因数目。随着测序 reads 数据的增多,检测到的基因数目逐渐增多,当测序 reads 达到一定数目之后,检测到的基因数目不再增多,此时测序达到饱和,继续增加测序reads 数目,并不会提高检测基因表达的数目。

饱和度评估

五、为什么要测序6G数据?

对于中等表达的基因(RPKM>15),reads数=40M(在PE 150测序下,大概是6G数据量),就无论是构建还是定量逐渐达到平台期。备注:40M reads 也是有参转录组测序的推荐数据量

注:图中数据为75bp读长的reads

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。

代码语言:javascript复制
bioinfoer.com

有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。

0 人点赞