ENCODE project项目简介

2019-12-19 15:51:57 浏览数 (1)

欢迎关注”生信修炼手册”!

ENCODE是Encyclopedia of DNA Elements的缩写,是由美国人类基因组研究中心NHGRI赞助的一项国际化的合作项目,通过整合DNA, RNA,蛋白质,表观修饰等多个层次的数据,旨在建立一个全面的人类基因组数据研究的数据库。

如下图所示,整合了不同组学的数据

随着不断发展,后来又陆续整合了modENCODE等多个项目的数据,对数据库进一步扩充,增加了小鼠,果蝇,线虫等数据。该项目的所有数据可以通过以下链接进行查询

https://www.encodeproject.org/

点击Data->Matrix按钮,可以看到如下所示的结果,在左侧的筛选框可以根据多种条件进行筛选

筛选完成后,点击右侧矩阵中的数字,可以查看筛选到的数据集。以转录因子CTCF的chip_seq数据为例,结果如下

对于每个数据集,提供了以下结果

1. 基本信息

给出了数据类型,样本对应的细胞系和组织类型,测序平台等基本信息,示意如下

2. 分析的pipeline

提供了该数据集所用的分析流程的描述文档,示意如下

3. 相关文件

包含了测序的原始序列和分析的结果文件,可以下载,示意如下

ENCODE不仅仅是一个公共数据库,除了提供数据检索和查询服务,还提供了不同组学数据分析的标准pipeline和各种质控标准以供参考,链接如下

https://www.encodeproject.org/pipelines/

利用ENCODE,我们可以开展基于公共数据库的数据挖掘,也可以参考其pipeline进行数据分析。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

0 人点赞