上次给大家安利了一款神器,零代码差异表达分析, DESeq,limma,edgeR一网打尽,可能大家觉得那是纸上谈兵,demo数据有啥意思,要就来真格的。好的,那么今天就真枪实弹干一场。
如果说上次是开胃菜,那么今天给大家来点正(干)餐(货)。就从GEO(https://www.ncbi.nlm.nih.gov/gds)里面找一套真实数据吧。
1.GEO数据检索
我这里以colon cancer为例,因为DEapp要求输入的数据是测序得到的count数,所以检索数据的时候我们这里特意指定了数据类型为Expression profiling by high throughput sequencing和Non-coding RNA profiling by high throughput sequencing。这样检索到的数据就都是测序数据了,并且同时包含mRNA和非编码RNA的表达谱数据。
我们这里以第二套数据为例
2.数据下载
直接点击这套数据的标题就可以打开如下页面
可以看到一共有12个样本,但是实际上是6个样本,检测了两种不同类型的RNA,从【】中就可以看出。
从①这里下载样本的注释信息,从②这里下载表达谱counts文件。
3. 准备分组信息