DNA甲基化芯片分析02: DNA甲基化芯片基础知识

2023-02-24 09:05:57 浏览数 (1)

undefined

基础知识

芯片中各种值的含义

beta

$beta = frac{M}{M U 100}$

表示某region的甲基化率

≤0.2 完全未甲基化,(0.2,0.6) 部分甲基化,≥0.6完全甲基化

M:探针B(甲基化)的数目M

A:探针A(非甲基化)的数目U

基因组上的分布

将整个基因组划分为Promoter, Body, 3UTR, Intergenic 4种区域,其中Promoter区又细分为TSS200, TSS1500, 5UTR, 1stExon 4种情况。

在各种CpG区域的分布

CpG shores等概念是根据与CpG island的距离进行定义的。

CpG Shores 指的是位于CpG island上下游2kb 以内的区域;CpG Shelves指的是位于CpG shores 上下游2kb以内的区域;open sea指的是CpG islands, CpG shores, CpG shelves之外的其他区域。

可以看到,位于open sea的探针是最多的。

CpG位点可能位于基因间区Intergenic, 也可能位于基因上,而这个基因可以是编码基因,也可以是非编码基因。

可以看到,位于编码基因上的探针最多,其次是位于基因间区的探针

处理流程

0.下载

1.读取

2.质控:缺失值填充、offset、过滤、QC三张图

3.差异分析:标准化,champ分析流程

注意:用logFC而不用deltabeta表示变化倍数;过滤未和基因关联的探针 filter(gene != "")

差异分析

按差异区域的长度不同分类

DMP:找出一个一个的差异甲基化CDG位点

DMR:(连续的差异片段)一个连续不断都比较长的差异片段,科学家们觉得,这样的连续差异片段,对于基因的影响会更加明显,只找这样的片段,可以使得计算生物学的打击精度更为准确,也可以让最终找出来的结论数据更少,便于实险人员筛选。

DMB:(某个基因附近的全部甲基化探针)更大的差异化region区域。有的科学家觉得,DMR这样的区域还不够显著,DNA上的甲基化出现变化,可能是绵延几千位点的!而且只会在基因以外的区域,但是这些基因以外的区域发生变化,却会导致基因的表达发生变化。你可以想象成,北京周边的河北在大炼钢铁,然后北京也跟看雾霾了,大概就是这意思。

按差异区域的类型不同分类

TSS200:转录起始位点上游200位置

References

https://mp.weixin.qq.com/s/-E50Jvzo8aNqVgvEB0nVGA

https://mp.weixin.qq.com/s/JHrL_DqgQY6Yh18vHySKYg

https://github.com/jmzeng1314/methy_array

https://mp.weixin.qq.com/s/VtuapPafKsZaS_WKuQx4Xg

https://mp.weixin.qq.com/s/mJ8qlSLXvvvLz98NdhL9jA

https://mp.weixin.qq.com/s/fLZFEWHt5K55FffExhD9zA

https://mp.weixin.qq.com/s/12dxY4a_UxdoXQVdIMYZMQ

http://www.360doc.com/content/21/0118/13/72917688_957595208.shtml

0 人点赞