下面是100个lncRNA组装案例文献分享
12个样本:2个基因型(紫色和橙色胡萝卜)X 2个组织(木质部和韧皮部)X 3个生物学重复。
数据编号:PRJNA668894
文章信息
标题:Insights into long non‑coding RNA regulation of anthocyanin carrot root pigmentation
标题:长链非编码RNA调控胡萝卜根花青素沉着的深入研究
作者:Constanza Chialva, Thomas Blein, Martin Crespi, Diego Lijavetzky
杂志:Scientific Reports, 18/2/2021
DOI:10.1038/s41598-021-83514-4
花青素是黄酮类化合物,使许多植物的器官和组织产生紫色、红色和蓝色的色素,在植物中,防止紫外线辐射,改善不同的非生物和生物胁迫,如干旱,寒冷、病原体攻击;以及参与生理过程,如叶片衰老。作为饮食成分,具有抗氧化,抗炎特性。
胡萝卜(Daucus carota L.)是能够在根中积累大量花青素的作物之一。
无论植物种类如何,至少有两类基因参与花青素的生物合成,结构基因编码直接催化花青素产生的酶,以及控制结构基因转录的调控基因。
紫胡萝卜韧皮部和木质部组织中的花青素浓度和色素分布不同,表明两个根组织中存在独立的遗传。此前的研究表明,DcMYB7和DcMYB6参与紫根样品韧皮部色素形成的调控。通过功能缺失和功能获得性突变实验,证明DcMYB7是控制胡萝卜根紫色素形成的主要决定基因。
本研究分析推测与胡萝卜根花青素生物合成调控相关的lncNATs的表达谱。此外,还分别分析了紫色和橙色胡萝卜韧皮部和木质部的基因表达模式。研究结果表明,反义转录在胡萝卜根中花青素生物合成的调控中起到了组织特异性的作用。
胡萝卜(Daucus carota L.)的贮藏器官可以积累大量的花青素本研究中,通过链特异性RNA-seq比较两种花青素产量差异较大的基因型韧皮部和木质部的lncRNAs表达谱进行鉴定和分析。本文注释了8484个新基因,包括2095个新蛋白编码基因和6373个非编码转录本。639个lncRNAs在不同基因型不同表型间差异表达。
数据方法
1.样本数据
12个样本:2个基因型(紫色和橙色胡萝卜)X 2个组织(木质部和韧皮部)X 3个生物学重复
2.数据分析:
- 测序平台:Illumina HiSeq 2500 101bp paired-end 。数据编号:PRJNA668894
- 质控过滤:
- FastQC
- Trimmomatic:(ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:21 TRAILING:21 MINLEN:30)
- 过滤核糖体RNA:
--fastx --log -e 1e−07 -a 4 -v)
- SortMeRNA:(-ref silva-bac-16s-id90.fasta --ref silva-bac-23s-id98.fasta --ref silva-euk-18 s-id95.fasta --ref silva-euk-28s-id98.fasta --paired_in
- 比对:STAR (--alignIntronMin 20 --alignIntronMax 20,000 --outSAMtype BAM SortedByCoordinate --outReadsUnmapped Fastx)
- 组装:StringTie
- 候选转录本的鉴定:GffCompare (GffCompare classes “u” , “x” ).
- 定量:Rsubread 的 featureCount ;normalized counts (median of ratios)
- 差异分析:DEseq2 Bonferroni’s adjusted p value < 0.01
- 可视化:
- IGV查看链特异性表达的mRNA与对应lncNATs
- 维恩图:Venny (v2.1)
结果
1.花青素相关lncRNAs的RNA-seq数据挖掘、识别和注释
鉴定并注释了8484个新的转录本,包括2095个新的蛋白编码转录本和6373个非编码转录本(1521个lncNATs、4852个lincRNA和16个结构转录本)。这些新的转录本与已知的34263个转录本,构成有42747份转录本的集合。
对ORF 进行同源性分析:
新预测的蛋白质编码基因携带开放阅读框(ORF),呈现出与已有注释的开放阅读框(ORF)很强的同源性。相反,绝大多数新预测的非编码转录本没有表现出保守性。
大多数非编码转录本长度小于1000bp,比较集中在400-800bp。编码转录本集中在500-1000bp。绝大多数结构转录本低于200bp。
外显子个数,非编码主要是一个外显子。
非编码转录本在染色体上的分布没有明显的偏好性。
非编码转录本的表达水平要低于编码转录本。
2.橙色胡萝卜和紫色胡萝卜花青素着色表型差异解释了编码和非编码表达的差异
这个差异分析比较容易复现,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可;
- 解读GEO数据存放规律及下载,一文就够
- 解读SRA数据库规律一文就够
- 从GEO数据库下载得到表达矩阵 一文就够
- GSEA分析一文就够(单机版 R语言版)
- 根据分组信息做差异分析- 这个一文不够的
- 差异分析得到的结果注释一文就够
A. 对12个样本的全部表达进行PCA分析,
B.紫色胡萝卜和橙色胡萝卜之间共有3567个差异基因表达:
- 1585个上调编码转录本和320个上调非编码转录本
- 1343个下调编码转录本,319个下调非编码转录本。
研究者鉴定到与胡萝卜根中差异表达基因主要集中于花青素生物合成途径。该途径下大部分已知基因及主要调控因子在两种基因型存在表达差异。在紫色组织中主要是(1)类黄酮、花青素途径的早期阶段;(2)细胞色素P450蛋白,推测与类黄酮和异黄酮的生物合成途径有关;(3)ATP结合盒式转运蛋白,可能与花青素运输有关;(4)该途径晚期的烯类。该途径最重要的调控基因:MYB、bHLH和WD40TF基因家族在紫色和橙色基因型间也有差异表达。再进一步分析这三个基因家族26个基因的组织差异表达,发现DcMYB6 和DcMYB7在组织中不具有特异性。
在紫色和橙色
3.胡萝卜反义lncRNA对花青素相关基因的调控
大量lncRNA的功能是未知的,但是它们主要是cis-regulators,所以可以根据它们临近的蛋白编码基因功能来近似推断,然后表达量的相关性也可以类推到。
- 根据位置关系推断 使用bedtools等工具!
- 表达量的相关性, 比如杂志Cancer Medicine, 2020的文章《 Genome-wide DNA methylation analysis by MethylRad and the transcriptome profiles reveal the potential cancer-related lncRNAs in colon cancer》,在进行结直肠癌相关lncRNA的功能富集分析,就是采用LncRN2Target v2.0和StarBase分析与15个lncRNA共表达的蛋白编码基因,其中lncRNA HULC和ZNF667-AS1分别鉴定到28个、9个共表达的蛋白编码基因!
反义lncRNA的筛选标准:
- (1)在紫色和橙色组织中,lncRNA和推测的靶基因差异表达;
- (2)lncRNA是靶基因的反义基因;
- (3)基因的表达水平 ≥ 0.70 or ≤ −0.70, and p < 0.01.
得到19个差异表达的反义lncRNA,其中5个与正义链转录本表达不一致(即当lncNAT表达增加时,正义链转录本被抑制)。
检测到两个lncNATs(MSTRG.27767/asDcMyb6和MSTRG.9120/asDcMyb7)分别与关键调控因子DcMYB6和DcMYB7存在反义关系,且表达相关性一致。
4.RT-qPCR验证了DcMYB6和DcMYB7及其反义lncRNA的差异表达
RNA-seq和RT-qPCR在所有紫色样品中都检测到这四个基因的表达,而在橙色组织中检测不到这四个基因的表达。此外,这两种技术都只能检测到DcMYB6在橙色组织中的基因表达,其数值明显低于紫色组织。
这四个基因在紫色韧皮部和木质部组织中的比较RT-qPCR表达。
讨论
通过对韧皮部和木质部紫色样本的解剖,作者可以发现DcMYB6 和DcMYB7基因没有组织特异性的表达,这与之前的报道相反。作者提出的解释是可能是因为之前的研究没有进行独立的韧皮部和木质部转录组分析。
作者鉴定了19个紫色和橙色胡萝卜之间差异表达的lncNATs。其中两个lncNATs(asDcMYB6和asDcMYB7)的转录方向分别与DcMYB6和DcMYB7相反。此外,asDcMYB6和asDcMYB7与其相应的正义转录本表现出一致的表达模式,非编码RNA反义转录通过DcMYB7(和/或DcMYB6)调控胡萝卜花青素的生物合成提供了可能性。这一调节可能与先前提出的未知遗传因素有关。