下面是100个lncRNA组装案例文献分享
标题:The landscape of lncRNAs in Cydia pomonella provides insights into their signatures and potential roles in transcriptional regulation
标题:苹果小卷蛾中lncRNA的特征及lncRNA在转录调节过程中的作用
杂志:BMC Genomics
通讯作者:Wei Fan,1 Fanghao Wan,1,2 Wanqiang 1
机构:1中国农业科学院 深圳农业基因组学研究所 深圳分院,广东省岭南现代农业实验室,农业部基因组分析实验室,深圳 ,2 中国农业科学院 植物保护研究所 植物病虫害生物学国家重点实验室,北京
文章链接:doi: 10.1186/s12864-020-07313-3
发布时间:Published online 2021 Jan 5
摘要:苹果小卷蛾(Cydia pomonella L.)是我国重要的入侵物种;然而,lncRNAs在这种昆虫中的功能影响尚不清楚。在这项研究中,基于公开的RNA-seq数据集,构建了一份蛾类的lncRNAs图谱。
共鉴定出9161个位点编码的9875个lncRNA转录本。
正如预期的那样,lncRNAs显示出比蛋白编码基因(PCGs)更短的转录本长度,更低的GC含量和更低的表达水平。此外,与PCG相比,lncRNA更有可能表现出组织特异性的表达模式。此外,保守性分析表明,lncRNA序列在昆虫间的保守性很弱,但基于共线性可以识别出更多同源的lncRNAs,这表明共线性可能是一种更可靠的跨物种比较lncRNAs的方法。此外,lncRNAs与相邻PCG的相关性分析表明,它们之间存在较强的相关性,表明这些lncRNAs在基因表达调控中具有潜在的顺式作用。
该研究为lncRNAs的比较和功能研究提供了有价值的资源,这将有助于理解它们在转录调控中的机制作用。
关键词:长非编码RNA,保守性,共线性,转录调控,苹果小卷蛾
材料方法:
数据:14个样本(雌头、雄头、雌性中肠、雄性中肠、睾丸、卵巢、附腺) 各两个生物重复的样本;SRP083782(SRR4101328-SRR4101341)
2个没有生物学重复的样本(雄性和雌性触角)SRP060413 (SRX1082030, SRX1082029)
5个不同发育期的样本(2个胚胎期,幼虫期、蛹期、成虫期各1个)SRP181710 (SRR8479435, SRR8479438,SRR8479439, SRR8479440, SRR8479441)
1.转录本组装:
- 质控:FastQC:
- 过滤:Trimmomatic v1.3
- 比对:GSNAP version 2019-06-10
- 组装:StringTie v1.3.3b
- 转录本分类:gffcompare v0.10.1
2.lncRNA鉴定:
- 转录本类型:u i x
- 长度大于200nt
- 至少有两个外显子
- CPC CNCI 不具备编码能力
- ORF小于300nt
- BLASTX比对到SwissProt ,无显著匹配 E-value = 1e-3
- Pfam无显著匹配(E-value = 1e-3)
- RPKM >1
3.组织特异性表达的转录本分析
为了衡量每个基因的组织特异性水平,我们计算了JS散度分数,作为跨九个不同组织或五个发育阶段的特异性指数。对于每组,我们计算所有重复的平均值,并计算JS得分。一般来说,JS评分范围在0到1之间,值越大,表明基因的特异性越高。
为了避免受到表达量水平的干扰,编码基因和LncRNA根据每个基因在9个样本中的最大RPKM值被分为三组(低:RPKMmax<5.0;中等:5.0≤RPKMmax<50.0;PRKMmax≥5 0.0),并分别计算3组的JS评分。先前的一项基准研究表明,tau指数是衡量基因表达的组织特异性的良好指标。
4.转录本丰度评估与差异表达分析
To estimate the expression levels of PCGs and lncRNAs, HTSeq v0.10.0
- 差异分析DESeq2 p-value < 0.05 and a |log2fold-change| ≥ 1.0
5.序列保守性分析
与7个具有代表性的昆虫进行比对。A. aegypti A. gambiae B. mori N. lugens P. xylostella A. mellifera D. melanogaster
6.lncRNA同源性分析
Python pipeline https://github.com/Gabaldonlab/Synthenic-Families
比较了家蚕和蛾之间的lncRNA。
7.LncRNAs与邻近PCG的相关性分析
使用lncRNA上下游10kb的编码基因的RPKM计算PCC。
8.富集分析
GO q-values < 0.05
结果
1.在苹果小卷蛾中鉴定到9875个lncRNA
9875 个lncRNAs 9161 个位点。下图A为鉴定 到的 lncRNA类型。B是其他昆虫中lncRNA的鉴定情况,做了下比较。
在大多数物种中,基因间区的lncRNA占大多数。
2.lncRNA的特征描述
- lncRNA转录本长度小于mRNA
- lncRNA主要含有2个外显子
- lncRNA GC含量低于mRNA
- lncNATs的表达水平略高于mRNAs。
- 共有11782个PCG与先前预测的TES重叠,占所有PCG的53.16%。相比之下,与TE重叠的lncRNAs比例明显更高(9875个中的7786个,78.85%)
- 对于lncRNA,大部分重叠的TES被归类为未知。Lines、RC/Helitrons和DNA转座子是lncRNA前三个TES。另一方面,SINES和LTRS很少与lncRNAs相关
3.lncRNA在不同发育期和不同组织的表达模式
睾丸、雌性触角和附腺是表达最特异的lncRNAs的前三个组织。附腺和睾丸是特异性分数最高的组织。相比之下,卵巢的特异性得分最低。总的来说,,lncRNAs表现出比mRNAs更显著的时空特异性表达模式。
4.lncRNA的差异表达和性别偏向表达模式
lncRNA更加偏好雄性表达。这个差异分析比较容易复现,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可;
- 解读GEO数据存放规律及下载,一文就够
- 解读SRA数据库规律一文就够
- 从GEO数据库下载得到表达矩阵 一文就够
- GSEA分析一文就够(单机版 R语言版)
- 根据分组信息做差异分析- 这个一文不够的
- 差异分析得到的结果注释一文就够
5.lncRNA的同源关系基于共线性而不是序列保守性
LncRNAs在昆虫物种间表现出很弱的序列保守性,特别是对于进化距离较远的昆虫。
6.lncRNA与邻近编码基因更高的相关性
大量lncRNA的功能是未知的,但是它们主要是cis-regulators,所以可以根据它们临近的蛋白编码基因功能来近似推断,然后表达量的相关性也可以类推到。
- 根据位置关系推断 使用bedtools等工具!
- 表达量的相关性, 比如杂志Cancer Medicine, 2020的文章《 Genome-wide DNA methylation analysis by MethylRad and the transcriptome profiles reveal the potential cancer-related lncRNAs in colon cancer》,在进行结直肠癌相关lncRNA的功能富集分析,就是采用LncRN2Target v2.0和StarBase分析与15个lncRNA共表达的蛋白编码基因,其中lncRNA HULC和ZNF667-AS1分别鉴定到28个、9个共表达的蛋白编码基因!
大多数(6831,69.17%)的lncRNA具有相邻的编码基因。共有3199对LncRNA编码基因(GP)的PCC绝对值>0.5,这些LncRNA代表了潜在的具有顺式调控功能的候选基因。
大比例的lncRNAs与邻近的PCG显示出更强的相关性,并可能在基因表达的调控中发挥顺式作用。