但是差异分析大家还是首先limma,而limma这个包本来是针对log后的表达矩阵设计的,这样的话,如果我们的输入是甲基化信号矩阵,实际上出来的结果是有问题的。
甲基化信号值的生物学意义
首先甲基化信号值通常是贝塔值,是介于0到1之间的连续变量。
公式计算:平均β=信号B /(信号A 信号B 100)
通过计算甲基化(信号A)和未甲基化(信号B)等位基因之间的强度比来确定DNA甲基化水平(β值)。
具体地,β值是由甲基化(M对应于信号A)和未甲基化(U对应于信号B)等位基因的强度计算的,荧光信号的比率β= Max(M,0)/ [Max( M,0) Max(U,0) 100]
。
因此,β值的范围从0(完全未甲基化)到1(完全甲基化)
一般来说,具体的β值
的意义是:
- 任何等于或大于0.6的β值都被认为是完全甲基化的。
- 任何等于或小于0.2的β值被认为是完全未甲基化的。
- β值在0.2和0.6之间被认为是部分甲基化的。
差异分析的问题所在
我发现发表在Mol Med Rep. 2019 Jul; 的文章doi: 10.3892/mmr.2019.10294 就提到了对甲基化信号矩阵做差异分析后,选取什么样的阈值来判定是统计学显著的高甲基化位点或者低甲基化位点,如下:
这个log2FC看得我心疼,都0.1了。
仔细看了看,其实研究者走完limma流程之后呢,其实是把全部的logFC值给画了density图,才决定使用什么样的阈值。听起来还蛮有统计学道理的!
亲爱的读者,你觉得呢