最近发现了一个有意思的期刊杂志:《Scientific Data》,它似乎是并不需要特别的高级数据分析也不需要得到什么明确的生物学结论,仅仅是自己产出测序数据并且公开给大家即可,简要的质量控制和描述数据即可。
这就可能非常受生信工程师的喜爱,因为绝大部分生信工程师就是擅长统计可视化,生物学背景比较匮乏而且很难编造一个完整的生物学科研故事。让我们以 2017的文章《Transcriptomic profiling of 39 commonly-used neuroblastoma cell lines》为例说明一下只有测序数据不知道如何高级分析,可以怎么样的发表在期刊杂志:《Scientific Data》吧。
文章很简略,就是真的neuroblastoma挑选合适的肿瘤细胞系,培养并且确认细胞系真实性后直接来一个转录组测序即可,最基础的转录组数据分析流程,就是质量控制和定量而已。如下所示:
文章很简略
可能是作者自己觉得内容有点单薄,就是去找到了这个neuroblastoma的肿瘤病人转录组测序数据,并且跟自己的neuroblastoma的癌症细胞系测序数据做一个简单的差异分析。
如果你进去这个文章的数据看看会发现其实也算是多组学:
- GSE89413 Transcriptomic Profiling of 39 Neuroblastoma Cell Lines
- GSE89968 Genome-wide SNP Profiling of 27 Neuroblastoma Cell Lines
不过这个文章主要的描述的就是转录组测序数据部分:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE89413,另外的那个SNP芯片主要是就看了看这个neuroblastoma疾病出名的拷贝数扩增基因而已。
作者真的转录组测序数据部分提供了表达量矩阵是 GSE89413_2016-10-30-NBL-cell-line-STAR-fpkm.txt.gz 5.9 Mb ,感觉作者很无聊,他走的是STAR比对流程,然后 A custom R script was used to generate gene fragments per kilobase of exons per million reads (FPKM) from the count data produced from STAR. 这FPKM矩阵需要自己写脚本吗?
但是这些转录组测序数据都有fastq文件可以下载,几个小时就可以自己定量拿到counts矩阵。
细胞系和原位肿瘤差异
作者这里明明是使用了 DESeq2 做转录组测序表达量矩阵的差异分析,所以矩阵必须是counts格式,作者自己测序的细胞系,然后去了 Therapeutically Applicable Research to Generate Effective Treatments (TARGET) 可以下载到 人类肿瘤的数据,见:https://ocg.cancer.gov/programs/target/data-matrix
不过我对 Neuroblastoma (NBL) 神经母细胞瘤并不是很熟悉,确实可以找到表达量矩阵:
- https://target-data.nci.nih.gov/Public/NBL/mRNA-seq/L3/expression/
但是如何挑选合适的病人的转录组测序表达量矩阵去跟作者的细胞系差异分析就需要读一下文章了。
学徒作业
完成作者提到的细胞系和原位肿瘤差异的对比,并且绘图:
image-20230114152158693
值得注意的是并不是细胞系和原位肿瘤的差异分析,而是在细胞系里面的MYCN基因突变与否的两个分组的细胞系的差异分析,以及在肿瘤病人里面的MYCN基因突变与否的两个分组的差异分析。其中图A展示的是两次差异分析的共有差异基因的表达量相关性:
- Across the neuroblastoma cell lines, 3,940 genes were differentially-expressed (DE) based on MYCN amplification status and of those,
- 2,395 were differentially-expressed based on MYCN amplification status in primary tumors and were significantly correlated
而图C展示的两次差异分析都没有达到统计学显著的基因在癌症细胞系和原位肿瘤的表达量相关性:
- A significant correlation between the common 6,523 genes that were not DE in cell lines and tumors was observed
还是一样的技术难度哦,大家加油!随便看看MYCN基因是否有表达量差异哈。