欢迎关注”生信修炼手册”!
ENCODE是Encyclopedia of DNA Elements的缩写,是由美国人类基因组研究中心NHGRI
赞助的一项国际化的合作项目,通过整合DNA, RNA,蛋白质,表观修饰等多个层次的数据,旨在建立一个全面的人类基因组数据研究的数据库。
如下图所示,整合了不同组学的数据
随着不断发展,后来又陆续整合了modENCODE
等多个项目的数据,对数据库进一步扩充,增加了小鼠,果蝇,线虫等数据。该项目的所有数据可以通过以下链接进行查询
https://www.encodeproject.org/
点击Data->Matrix
按钮,可以看到如下所示的结果,在左侧的筛选框可以根据多种条件进行筛选
筛选完成后,点击右侧矩阵中的数字,可以查看筛选到的数据集。以转录因子CTCF
的chip_seq数据为例,结果如下
对于每个数据集,提供了以下结果
1. 基本信息
给出了数据类型,样本对应的细胞系和组织类型,测序平台等基本信息,示意如下
2. 分析的pipeline
提供了该数据集所用的分析流程的描述文档,示意如下
3. 相关文件
包含了测序的原始序列和分析的结果文件,可以下载,示意如下
ENCODE不仅仅是一个公共数据库,除了提供数据检索和查询服务,还提供了不同组学数据分析的标准pipeline和各种质控标准以供参考,链接如下
https://www.encodeproject.org/pipelines/
利用ENCODE,我们可以开展基于公共数据库的数据挖掘,也可以参考其pipeline进行数据分析。
·end·
—如果喜欢,快分享给你的朋友们吧—
扫描关注微信号,更多精彩内容等着你!