在GEO公共数据检索的时候,发现有一个数据集想要分析,但是发现是二代测序的数据,没有相关的原始数据处理经验,要怎么办呢?
二代测序对于没有生信基础的人的难点
之前我们在介绍GEO分析基础的时候,提到过利用目前的个人电脑以及一些网络工具分析工具,我们能分析就是一些基因芯片的数据,但是对于二代测序的数据的话,分析起来就有一些困难了。主要的困难在于二代测序的数据的原始数据是fastq格式的,例如下图就是一个fastq的文件的一部分,它的主要内容就是检测到的序列是什么。
对于这样的数据,我们肯定是经过一定的处理才能把它转换为基因的表达量的,而就是在原始数据—基因表达量的这个过程,基本上我们的个人电脑和没有基础的人很难进行操作。只要二代测序的数据到了基因表达那种的表格形式的数据了,基本上一些分析我们也就可以来进行操作的。
这个其实就类似于我们用TCGA的数据一样的,我们从TCGA下载到的其实就是基因表达的表格数据。对于最原始的数据那没有一定的技能和资源是很难进行分析的。
那要是发现GEO里面有一个二代测序的数据很好,特别想使用怎么办呢?这次就给大家推荐一个把GEO的二代测序的数据经过处理转换为基因表达数据的的数据库,这个数据库就是ARCHS4数据库。
(https://amp.pharm.mssm.edu/archs4/index.html)
ARCHS4数据库介绍
ARCHS4数据库是一个把GEO数据库的一些人和鼠的二代测序的数据进行统一流程前期分析的数据库。通过分析,最终把原始的fastq的数据转换为了表格数据。这样我们就可以使用了。
数据库的使用很简单,我们只需要在数据检索的地方检索想要查看的数据集就行。这里的话,我们可以输入想要获得的GSE ID号码,可以输入GSM样本号码,同时也可以输入组织样本等等。
在输入之后,就可以获得这个样本具体的信息。我们可以点击R
的按钮可以获取R语言用来下载数据的代码。
这个代码,虽然是让我们获取目标数据集的表达数据,但是第一步还是要下载目标物种的所有数据。这个数据有多大呢?人的数据有7个G,老鼠的数据有5个G。这个对于个人的下载的任务量来说还是很大的。
那既然下载检索到的数据集需要很长的时间,有没有简单的方法来进行分析的呢?这个呢,如果我们在检索的时候只是检索的是GSE数据集,同时只是相对这个数据集进行简单的常用的数据分析的话(差异表达呀、富集分析呀这种的),那我们可以通过这个数据库链接的另外一个软件来进行分析。例如,我们在检索GSE81547
的时候。结果里面就有这么一个链接。
点击Biojupies,首先可以看到这个数据集的基本信息;点击差异基因表达的按钮,就可以对这个数据集进行分析了。
通过下图,我们就可以看到,这个软件可以分析从差异—富集的常规分析。我们需要做的就是决定要做什么分析,然后点击ADD添加即可。
这样我们就可以对了解一个数据集基本的数据了。但是如果我们检索的是某一个组织类型,那么获得的数据集就不能使用这个软件进行分析了,就需要下载数据自己分析了。
数据的下载
对于原始数据的下载,数据库提供了所有相关经过统一流程分析后的数据,包括count数据和tpm数据,同时也提供了目前数据库纳入的所有GSE信息。
对于这么大的数据,数据库默认的提供的是一整个R语言格式的矩阵文件。首先我们在使用的时候肯定不会全部使用的,所以如果每次都数据加载开始的话,每次加载一个7个G的文件还是很麻烦的,而且提供的是一个R语言格式的文件,这样对于没有R语言基础的同学很难进行操作。所以我们就把数据库里面的count数据下载了下来。同时把这个数据集按照GSE ID号来进行行拆分,这样我们在使用目标数据集的时候就可以直接加载目标数据集即可了。另外,对于数据集所有数据的基本信息,我们也提供了一个表格,我们可以在里面检索数据库包含的数据以及基本的样本信息。
所以呢,还是老规矩,需要的话,可以转发朋友圈(无分组)5分钟后截图发送后台或者打赏作者来获得ARCHS4数据库 所有的count数据哦!
PS:一般而言count可以用于差异表达分析,如果要做基因之间的比较的话,需要用到tpm的数据。这个数据量就太大了,如果需要就自己想办法吧。如果没有很大型的储存装备的话,建议还是说可以从count入手,寻找自己想要的数据集,然后找到了想要分析了,可以自己再转tpm即可。