GEO数据库简介

2022-10-25 20:01:22 浏览数 (1)

一、GEO 数据库简介

GEO 数据库全称是 Gene Expression Omnibus,是由美国国立生物技术信息中心NCBI 创建并维护的基因表达数据库。它收录了世界各国研究机构提交的高通量基因表达数据,目前已经发表的论文中涉及到的基因表达检测的数据可以通过这个数据库中找到,并且免费提供下载,对科研人来说真是非常友好的存在。

GEO 数据库中包含了多种基因表达相关的数据,里面除了二代测序数据,还包含芯片测序、单细胞测序数据等,因此 GEO 数据与 NCBI 中的 SRA 数据是存在交集的,同一个数据可以包含在 SRA 数据库中,如果是基因表达相关的,也可以包含在 GEO 数据中。但是同一份数据在不同的数据库中就会有不同的 ID。

GEO 数据同样使用多种 ID 进行标识,例如

GEO Platform (GPL) 芯片平台

GEO Sample (GSM) 样本 ID 号

GEO Series (GSE) study 的 ID 号

GEO Dataset (GDS) 数据集的 ID 号等。

二、GEO 数据库检索数据

1、打开网址

代码语言:javascript复制
https://www.ncbi.nlm.nih.gov/geo/

GEO 数据库官网

进入之后界面如下,右边就是检索框,输入关键词即可搜索。例如搜索关键字“GSE52778”

GEO 数据库的首页主要可分为 4 个版块。

1、GEO 数据库相关的使用教程,例如我们可以点击相应的链接查看 Dataset、Profiles、GEO2R 的说明文档;

2、GEO 数据库相关的各种小工具;

3、GEO 数据库目前现有的数据量;

4、GEO 数据库数据上传相关的说明信息。

详细说明文档:https://ncbi.nlm.nih.gov/geo/info/overview.html

三、基因表达调控项目

3.1 ENCODE 计划

DNA 元件百科全书 ENCODE,The ENCODE Project,即 ENCyclopedia Of DNA Elements,是美国国立人类基因组研究院(US National Human Genome Research Institute,NHGRI)在 2003 年 9 月启动的跨国研究项目。该项目旨在解析人类基因组中的所有功能性元件,它是人类基因组计划(Human Genome Project,HGP)完成之后,又一重要的跨国基因组学研究项目。该项目联合了来自美国,英国,西班牙,新加坡和日本的 32 个实验室的 422 名科学家的努力,获得了迄今最详细的人类基因组分析数据(他们获得并分析了超过 15 兆兆字节的原始数据)。研究花费了约 300 年的计算机时间,对 147 个组织类型进行了分析,以确定哪些能打开和关闭特定的基因,以及不同类型细胞之间的“开关”存在什么差异。

2012 年 9 月 5 日,ENCODE 项目的阶段性研究结果被整理成 30 篇论文发表于《自然》(6 篇),《基因组研究》(6 篇)和《基因组生物学》(18 篇)上。研究结果显示,人类基因组内的非编码 DNA 至少 80%是有生物活性的,而并非之前认为的“垃圾” DNA (junk DNA)。这些新的发现有望帮助研究人员理解基因受到控制的途径,以及澄清某些疾病的遗传学风险因子。

网址:

代码语言:javascript复制
https://www.genome.gov/Funded-Programs-Projects/ENCODE-Project-ENCyclopedia-Of-DNA-Elements

ENCODE计划时间表

3.2 TCGA

TCGA(The Cancer Genome Atlas, 癌症基因组图谱)项目最早始于 2005 年,由美国政府出资,美国国家癌症研究所(National Cancer Institute)和美国人类基因组研究所(National Human Genome Research Institute)共同监督,旨在应用高通量的基因组分析技术,以帮助人们对癌症有个更好的认知,从而提高对于癌症的预防、诊断和治疗能力。

网址:

代码语言:javascript复制
https://www.cancer.gov/

TCGA 是由多个组织机构和单位共同在支持和维护的项目,主要分为负责测序的GCCs(genome characterization centers)和负责生物信息分析的GDACs(genome data analysis centers)。

TCGA 数据分类:

• DNA Sequencing

• miRNA Sequencing

• Protein Expression

• mRNA Sequencing

• Total RNA Sequencing

• Array-based Expression

• DNA Methylation

• Copy Number

TCGA 数据结构图

3.3 GTEx

GTEx(Genotype-Tissue Expression),是由 National Institutes of Health (NIH)于 2010 年 9 月发起的项目,目前最新版本为 2020 年 9 月发布的 Version 8,该数据库包括了 838 个捐赠者和 17382 个来自 52 个组织和两个细胞系的样本。GTEx 除了可以与 TCGA 数据库合用外,还可以研究正常样本不同组织之间的基因表达的差异。

网址:

代码语言:javascript复制
https://www.gtexportal.org/home/index.html

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。

代码语言:javascript复制
bioinfoer.com

有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。

0 人点赞