GEO数据库的每个GPL平台对应的详细信息获取txt文本文件

2023-09-04 15:40:06 浏览数 (2)

一般来说,GEO数据库的每个GPL平台都有对应的网页,而且可以获取其详细信息的txt文本文件,比如:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL6244

就是如下所示:

下载一个txt文本文件

如果大家点击上面的链接,就会下载一个txt文本文件,相当于是 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?mode=raw&is_datatable=true&acc=GPL6244&id=17930&db=GeoDb_blob144 里面的链接下载内容。

但是有一些 平台可能是没有这样的鼠标可以点击的地方,比如:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL16956

没有这样的鼠标可以点击的地方

主要是因为它是 Agilent-045997 Arraystar human lncRNA microarray V3 ,其实里面的信息本来就没有基因名字。。。。

这个时候有一个办法是使用 idmap 函数 :

代码语言:javascript复制
library(GEOquery) 
gpl <- getGEO('GPL16956', destdir=".")
colnames(Table(gpl))  

ids=idmap('GPL16956','pipe')
head(ids)
ids=ids[ids$symbol != '',]
cg = annoGene(ids$symbol,'SYMBOL','human')
head(cg)
ids=merge(ids,cg,by.x='symbol',by.y = 'SYMBOL')
head(ids)
tail(sort(table(ids$biotypes)))
ids=ids[ids$biotypes=='protein_coding',]

dat=pd_dat
ids=ids[,c(2,1)]
table(group_list) 
save(dat,ids,group_list,file = 'probeM.Rdata')

我注意到,大家没办法在里面跟前面的GPL6244平台一样的下载GPL16956平台的txt文本文件,主要是因为没有鼠标点击的地方,但是实际上我们的网页链接下载的网页是有规律的, https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?mode=raw&is_datatable=true&acc=GPL6244&id=17930&db=GeoDb_blob144

GEO (Gene Expression Omnibus) 是由美国国立生物技术信息中心 (NCBI) 维护的一个公开的基因表达数据库。在 GEO 中,数据主要被组织为三种类型的记录:平台 (GPL)、样本 (GSM) 和系列 (GSE)。

  • GPL (GEO Platform):这是一个特定的技术平台,比如一个特定的微阵列芯片或者一个测序平台。每个 GPL 记录包含了描述平台的元数据,以及一个表,列出了平台上所有的探针和它们对应的基因。
  • GSM (GEO Sample):这是一个特定的样本,比如一个特定的细胞类型在特定条件下的基因表达数据。每个 GSM 记录包含了描述样本和实验条件的元数据,以及一个表,列出了所有探针的表达值。
  • GSE (GEO Series):这是一个实验系列,通常包含了多个样本(GSM)。每个 GSE 记录包含了描述整个实验设计的元数据,以及链接到所有相关的 GSM 和 GPL 记录。

在 GEO 的网站上,你可以通过 URL 直接访问这些记录。URL 的格式如下:

  • 对于 GPL 记录:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPLxxx
  • 对于 GSM 记录:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSMxxx
  • 对于 GSE 记录:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSExxx

在以上的 URL 中,"xxx" 需要被替换为你想要查看的记录的具体编号。例如,如果你想要查看 GPL96 这个平台,你可以访问 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL96 。

前面的规律很容易理解,但是我们想要的是GEO数据库的每个GPL平台对应的详细信息获取txt文本文件的规律,就让人费解了,因为 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?mode=raw&is_datatable=true&acc=GPL6244&id=17930&db=GeoDb_blob144 里面有一些很难解释的地方,所以我求助了我们《生信技能树》的元老“甲鱼”,帮我解析了它的规律。

果然,在 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi 就可以看到:

  • "Brief" displays the accession's attributes only.
  • "Quick" displays the accession's attributes and the first twenty rows of its data table.
  • "Full" displays the accessions's attributes and the full data table.
  • "Data" omits the accession's attributes, showing only the links to other accessions as well as the full data table

所以,很容易构建:

  • https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL6244&targ=self&form=text&view=data
  • https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL16956&targ=self&form=text&view=data

这个时候仅仅是需要替换里面的GPL的信息即可,当然了,前提是,网络得好,因为是geo数据库,在海外。。。。

0 人点赞