甲基化技术里面,whole-genome bisulfite conversion (WGBS) 是金标准,但是价格昂贵,数据处理消耗计算资源,而Reduced- representation bisulfite sequencing (RRBS) 和Methylated DNA Immunoprecipitation Sequencing (MeDIP-Seq),都是片面的,只有 Methyl-Capture Sequencing (MC Seq)克服了它们其它这些技术的缺点:
- lower genome coverage (Infinium 450K),
- high cost and processing time (WGBS),
- overrepre- sentation of repeated (RRBS)
- methylated regions (MeDIP- Seq).
但是实际上甲基化芯片才是最高频的产品,在人类研究领域主要是27k, 450k, 850k 以及最新的925k,而成熟的芯片早就有一系列公共资源在Bioconductor网页里面。
Bioconductor 是一个专注于生物信息学数据分析和生物数据科学的开源项目。它为生物信息学领域提供了一系列高质量的工具包和软件,以支持生物学研究中的数据处理、分析和可视化。
- 丰富的生物信息学工具包:Bioconductor 提供了大量的 R 语言工具包,涵盖了各种生物学领域,包括基因表达分析、蛋白质组学、代谢组学、表观基因组学等。这些工具包提供了丰富的函数和算法,方便研究人员进行生物信息学数据的处理和解析。
- 标准化的数据结构和格式:Bioconductor 提供了标准化的数据结构和格式,有助于不同工具包之间的数据交互和整合。这种一致性有助于确保数据的质量和可重复性,并使研究人员能够更容易地在不同工具包之间切换。
- 强大的统计和分析工具:Bioconductor 包含了一系列强大的统计和分析工具,能够满足生物学研究中复杂数据的需求。这些工具可以用于差异分析、聚类分析、通路分析等,帮助研究人员从高通量数据中提取生物学见解。
- 活跃的社区支持:Bioconductor 拥有一个活跃的开发者和用户社区,通过邮件列表、在线论坛等方式提供支持。这使得研究人员能够分享经验、解决问题,并保持工具包的不断更新和改进。
- 整合多种数据类型的能力:由于涵盖了多个领域的工具包,Bioconductor 有助于整合不同类型的生物学数据,如基因表达数据、DNA甲基化数据、蛋白质质谱数据等。这种整合能力有助于更全面地理解生物学系统。
比如27k, 450k芯片就有如下所示包:
代码语言:javascript复制IlluminaHumanMethylation27k.db
IlluminaHumanMethylation27kanno.ilmn12.hg19
IlluminaHumanMethylation27kmanifest
IlluminaHumanMethylation450kanno.ilmn12.hg19
IlluminaHumanMethylation450kmanifest
IlluminaHumanMethylation450kprobe
也就是说一款甲基化芯片的3种bioconductor包,那么它们有什么区别呢?
首先看450k芯片
比如 IlluminaHumanMethylation450kprobe,安装了它这个包就有一个数据对象,加载后可以看到这个芯片的全部的探针的基因组注释信息:
这个数据对象遵循了Bioconductor 提供了标准化的数据结构和格式,可以被GenomicRanges包里面的各种函数操作。
而另外的IlluminaHumanMethylation450kanno.ilmn12.hg19里面还有snp信息,包里面的数据对象更多了:
代码语言:javascript复制data(IlluminaHumanMethylation450kanno.ilmn12.hg19)
data(Locations)
data(Other)
data(Manifest)
data(SNPs.Illumina)
data(Islands.UCSC)
而IlluminaHumanMethylation450kmanifest是芯片产品相关信息,大概率大家是用不到它的。
那么850k芯片(Methylation EPIC v1.0 )呢
它目前的配套的包的规律改版了
代码语言:javascript复制IlluminaHumanMethylationEPICanno.ilm10b2.hg19
IlluminaHumanMethylationEPICanno.ilm10b3.hg19
IlluminaHumanMethylationEPICanno.ilm10b4.hg19
IlluminaHumanMethylationEPICmanifest
它类似于前面的IlluminaHumanMethylation450kanno.ilmn12.hg19,信息也是非常丰富:
代码语言:javascript复制data(IlluminaHumanMethylationEPICanno.ilm10b2.hg19)
data(Locations)
data(Other)
data(Manifest)
data(SNPs.Illumina)
data(Islands.UCSC)
最新的935k( MethylationEPIC v2.0)甚至还没有对应的包
在27k, 450k, 850k 基础上,Illumina推出了新一代的升级版甲基化芯片Infinium MethylationEPIC v2.0 BeadChip(935k) ,EPICv2.0-935K芯片可检测人全基因组约935,000个CpG位点的甲基化状态,在EPICv1.0-850K的基础上去除了性能不佳的探针,新增186,000个CpG靶向增强子和超级增强子、更多CTCF结合位点、CNV检测区域、EPIC v1.0覆盖不足的CpG岛以及常见癌症驱动突变。