苹果小卷蛾长非编码RNA的鉴定

2021-07-06 15:53:31 浏览数 (1)

咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程

下面是100个lncRNA组装案例文献分享

标题:The landscape of lncRNAs in Cydia pomonella provides insights into their signatures and potential roles in transcriptional regulation

标题:苹果小卷蛾中lncRNA的特征及lncRNA在转录调节过程中的作用

杂志:BMC Genomics

通讯作者:Wei Fan,1 Fanghao Wan,1,2 Wanqiang 1

机构:1中国农业科学院 深圳农业基因组学研究所 深圳分院,广东省岭南现代农业实验室,农业部基因组分析实验室,深圳 ,2 中国农业科学院 植物保护研究所 植物病虫害生物学国家重点实验室,北京

文章链接:doi: 10.1186/s12864-020-07313-3

发布时间:Published online 2021 Jan 5

摘要:苹果小卷蛾(Cydia pomonella L.)是我国重要的入侵物种;然而,lncRNAs在这种昆虫中的功能影响尚不清楚。在这项研究中,基于公开的RNA-seq数据集,构建了一份蛾类的lncRNAs图谱。

共鉴定出9161个位点编码的9875个lncRNA转录本。

正如预期的那样,lncRNAs显示出比蛋白编码基因(PCGs)更短的转录本长度,更低的GC含量和更低的表达水平。此外,与PCG相比,lncRNA更有可能表现出组织特异性的表达模式。此外,保守性分析表明,lncRNA序列在昆虫间的保守性很弱,但基于共线性可以识别出更多同源的lncRNAs,这表明共线性可能是一种更可靠的跨物种比较lncRNAs的方法。此外,lncRNAs与相邻PCG的相关性分析表明,它们之间存在较强的相关性,表明这些lncRNAs在基因表达调控中具有潜在的顺式作用。

该研究为lncRNAs的比较和功能研究提供了有价值的资源,这将有助于理解它们在转录调控中的机制作用。

关键词:长非编码RNA,保守性,共线性,转录调控,苹果小卷蛾

材料方法:

数据:14个样本(雌头、雄头、雌性中肠、雄性中肠、睾丸、卵巢、附腺) 各两个生物重复的样本;SRP083782(SRR4101328-SRR4101341)

2个没有生物学重复的样本(雄性和雌性触角)SRP060413 (SRX1082030, SRX1082029)

5个不同发育期的样本(2个胚胎期,幼虫期、蛹期、成虫期各1个)SRP181710 (SRR8479435, SRR8479438,SRR8479439, SRR8479440, SRR8479441)

1.转录本组装:

  • 质控:FastQC:
  • 过滤:Trimmomatic v1.3
  • 比对:GSNAP version 2019-06-10
  • 组装:StringTie v1.3.3b
  • 转录本分类:gffcompare v0.10.1

2.lncRNA鉴定:

  • 转录本类型:u i x
  • 长度大于200nt
  • 至少有两个外显子
  • CPC CNCI 不具备编码能力
  • ORF小于300nt
  • BLASTX比对到SwissProt ,无显著匹配 E-value = 1e-3
  • Pfam无显著匹配(E-value = 1e-3)
  • RPKM >1

3.组织特异性表达的转录本分析

为了衡量每个基因的组织特异性水平,我们计算了JS散度分数,作为跨九个不同组织或五个发育阶段的特异性指数。对于每组,我们计算所有重复的平均值,并计算JS得分。一般来说,JS评分范围在0到1之间,值越大,表明基因的特异性越高。

为了避免受到表达量水平的干扰,编码基因和LncRNA根据每个基因在9个样本中的最大RPKM值被分为三组(低:RPKMmax<5.0;中等:5.0≤RPKMmax<50.0;PRKMmax≥5 0.0),并分别计算3组的JS评分。先前的一项基准研究表明,tau指数是衡量基因表达的组织特异性的良好指标。

4.转录本丰度评估与差异表达分析

To estimate the expression levels of PCGs and lncRNAs, HTSeq v0.10.0

  • 差异分析DESeq2 p-value < 0.05 and a |log2fold-change| ≥ 1.0

5.序列保守性分析

与7个具有代表性的昆虫进行比对。A. aegypti A. gambiae B. mori N. lugens P. xylostella A. mellifera D. melanogaster

6.lncRNA同源性分析

Python pipeline https://github.com/Gabaldonlab/Synthenic-Families

比较了家蚕和蛾之间的lncRNA。

7.LncRNAs与邻近PCG的相关性分析

使用lncRNA上下游10kb的编码基因的RPKM计算PCC。

8.富集分析

GO q-values < 0.05

结果

1.在苹果小卷蛾中鉴定到9875个lncRNA

9875 个lncRNAs 9161 个位点。下图A为鉴定 到的 lncRNA类型。B是其他昆虫中lncRNA的鉴定情况,做了下比较。

在大多数物种中,基因间区的lncRNA占大多数。

2.lncRNA的特征描述

  • lncRNA转录本长度小于mRNA
  • lncRNA主要含有2个外显子
  • lncRNA GC含量低于mRNA
  • lncNATs的表达水平略高于mRNAs。
  • 共有11782个PCG与先前预测的TES重叠,占所有PCG的53.16%。相比之下,与TE重叠的lncRNAs比例明显更高(9875个中的7786个,78.85%)
  • 对于lncRNA,大部分重叠的TES被归类为未知。Lines、RC/Helitrons和DNA转座子是lncRNA前三个TES。另一方面,SINES和LTRS很少与lncRNAs相关

3.lncRNA在不同发育期和不同组织的表达模式

睾丸、雌性触角和附腺是表达最特异的lncRNAs的前三个组织。附腺和睾丸是特异性分数最高的组织。相比之下,卵巢的特异性得分最低。总的来说,,lncRNAs表现出比mRNAs更显著的时空特异性表达模式。

4.lncRNA的差异表达和性别偏向表达模式

lncRNA更加偏好雄性表达。这个差异分析比较容易复现,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可;

  • 解读GEO数据存放规律及下载,一文就够
  • 解读SRA数据库规律一文就够
  • 从GEO数据库下载得到表达矩阵 一文就够
  • GSEA分析一文就够(单机版 R语言版)
  • 根据分组信息做差异分析- 这个一文不够的
  • 差异分析得到的结果注释一文就够

5.lncRNA的同源关系基于共线性而不是序列保守性

LncRNAs在昆虫物种间表现出很弱的序列保守性,特别是对于进化距离较远的昆虫。

6.lncRNA与邻近编码基因更高的相关性

大量lncRNA的功能是未知的,但是它们主要是cis-regulators,所以可以根据它们临近的蛋白编码基因功能来近似推断,然后表达量的相关性也可以类推到。

  • 根据位置关系推断 使用bedtools等工具!
  • 表达量的相关性, 比如杂志Cancer Medicine, 2020的文章《 Genome-wide DNA methylation analysis by MethylRad and the transcriptome profiles reveal the potential cancer-related lncRNAs in colon cancer》,在进行结直肠癌相关lncRNA的功能富集分析,就是采用LncRN2Target v2.0和StarBase分析与15个lncRNA共表达的蛋白编码基因,其中lncRNA HULC和ZNF667-AS1分别鉴定到28个、9个共表达的蛋白编码基因!

大多数(6831,69.17%)的lncRNA具有相邻的编码基因。共有3199对LncRNA编码基因(GP)的PCC绝对值>0.5,这些LncRNA代表了潜在的具有顺式调控功能的候选基因。

大比例的lncRNAs与邻近的PCG显示出更强的相关性,并可能在基因表达的调控中发挥顺式作用。

0 人点赞