Analysis of RNA-Seq Data

2020-12-24 10:45:05 浏览数 (1)

前面介绍了NBIS的单细胞数据分析研讨会,其实他们也有转录组学分析研讨会。大家感兴趣的话,也可以看下。

官方链接 :https://nbisweden.github.io/workshop-RNAseq/2011/ 代码在 :https://github.com/NBISweden/workshop-RNAseq

主要内容

基础介绍

  • 简要介绍RNA和RNA-Seq技术的世界
  • 使用Unix/Linux命令行和使用远程计算集群Uppmax的入门读物
  • 基本的R语言学习(RNA-Seq分析通常是用R编程语言进行的,学习一些基本的R是很有用的)
  • 介绍RNA-SEQ分析所需的支持数据的检索。其中包括基因注释ID,如EnSembl ID和Gene ID之间的转换、GO注释和转录ID。以及如何从EnSembl检索基因组数据

注以上内容原链接都有对应的PPT展开介绍

主要的实践

Data

在大多数练习中,我们将使用数据集 GSE131032 。Czarnewski et al (2019) Nat Comm(https://www.nature.com/articles/s41467-019-10769-x).

通过无偏见的方式阐明哪些基因和途径在小鼠结肠炎之后的组织再生阶段有不同的调控。特别是,我们利用了广泛使用的葡聚糖硫酸钠(DSS)诱导的结肠炎模型。这个模型是为数不多的具有先损坏后再生的特点的模型之一。因此,这个模型提供了识别再生阶段必不可少的一组基因的可能性,而再生阶段是解决炎症的关键一步。简而言之,将小鼠暴露于饮用水中的DSS 7天,然后允许其在接下来的7天内康复。在此期间,我们每隔一天收集一次结肠组织样本,然后进行RNA测序(RNA-seq)。接下来,我们对整个实验过程中的结肠样本进行了RNA-seq分析,并利用Edger计算差异表达基因(Degs),将完整的表达动力学考虑在内,以估计p值。

在本课程中,从两个实验组(第00天和第07天,每组3个样本)的数据集中抽取的FASTQ文件将在read mapping, transcript assembly, visualization, quality control and differential expression中实践使用。在这些分析的基础上,可以提出许多相关的问题,从几项质量检查到理解生物标记等不一而论。

Quality control

在对映射的RNA-seq读数进行任何其他分析之前,对映射的读数进行质量控制总是很重要的,确保您的RNA-seq数据中没有任何明显的错误。

Mapping

介绍如何使用STAR和HISAT2将reads比对到参考基因组

Post-alignment QC

比对后,将检查BAM文件中的各种比对指标。其中一些包括映射的读段数量,未映射的读段数量,读段映射到的参考中的区域,基因体覆盖率,DNA污染的迹象等。以及使用IGV可视化比对结果。

Quantification

使用featureCounts从BAM文件中量化基因计数。

Filtering & Normalisation

Exploratory data analyses

在开始任何定量分析之前,进行一些探索性分析以获取样品之间的相似性很重要。这是识别标记错误的样品,劣质样品和/或重复性差异很大的重要步骤。本节将对探索性分析PCA和层次结构聚类进行更深入的研究。

Differential gene expression

找出在我们的实验设计时间点之间存在差异表达的基因

Functional analysis

我们将对差异表达的基因进行功能分析,将它们放入功能上下文中,并可能解释DE的生物学后果。所涉及的方法有GSA(基因集分析)和GSEA(基因集富集分析)。

附加实践

Pseudoaligners

这是一个可供选择的步骤,而不是mapping、 PA-QC 和定量。Kallisto使用FastQ读数和参考转录组(cDNA ncRNA)使用快速伪比对和bootstrap 复制法来量化转录本,以评估定量的准确性。Kallisto 的速度明显快于 STAR 或 HISAT2,而且内存占用很小。Kallisto生成转录计数。差异转录表达是使用Sleuth进行的,它使用bootstrap复制。

small RNA analyses

RNA-SEQ差异分析工作流程对来自果蝇的microRNA进行分析

Assembly & annotation

使用两种方法将原始测序短片段组装成转录本。使用HiSat2和StringTie进行基因组引导组装。使用Trinity 从头组装转录组。对组装的转录组进行功能注释以鉴定基因。

以上就是课程的主要内容,可以看到,几乎涵盖了转录组分析的方方面面,内容还是很丰富的,值得一看。

0 人点赞