纯数据挖掘之仔猪的长非编码RNA的鉴定

2021-07-06 15:08:44 浏览数 (2)

咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程

下面是100个lncRNA组装案例文献分享

标题:Transcriptome Analysis Suggests the Roles of Long Intergenic Non-coding RNAs in the Growth Performance of Weaned Piglets

标题:转录组分析揭示基因间区lncRNA在断奶仔猪生长中的作用

杂志:Frontiers in Genetics. (2019)

通讯作者:李长春

机构:华中农业大学 动物科学技术学院 农业动物遗传育种与繁殖教育部重点实验室;

文章链接:https://doi.org/10.3389/fgene.2019.00196

发布时间:18 March 2019

摘要:

基因间区lncRNA被认为在各种生物过程中起着关键的调节作用。越来越多的研究利用转录组分析来获得具有癌症相关功能的lincRNAs,但很少有人描述影响断奶仔猪生长速度的lincRNAs。虽然在各种小鼠组织和细胞系中已经系统地鉴定了lincRNA,但在猪中对lincRNA的研究仍然很少。因此,寻找和鉴定影响断奶仔猪生长性能的新的lincRNA具有重要意义。

在这里,我们重建了101,988个lincRNA转录本,并根据已公布的RNA-seq数据集,在两组背最长肌(LDM)和皮下脂肪(SF)中鉴定了1,078个lincRNA。这些lincRNA表现出典型的特征,比如相对于蛋白质编码基因,长度较短,表达水平较低。基因本体论分析表明,一些lincRNAs可能参与了断奶仔猪胰岛素抵抗和AMPK信号通路等相关过程。我们还比较了差异表达的lincRNAs(DELs)和数量性状位点(QTL)之间的位置关系,发现其中一些DELs可能在仔猪的生长发育中起着重要的作用。

我们的工作详细介绍了可能影响断奶仔猪生长性能的部分lincRNAs,并促进了对lincRNAs用于断奶仔猪分子辅助发育的未来研究。

关键词:lincRNA,RNA-seq,肌肉和脂肪发育,生长性能,断奶仔猪

断奶仔猪作为一类非常重要的经济动物,是典型的生物模型)。新生断奶仔猪采食量低,生长缓慢,死亡率高;因此,仔猪不容易增重。在断奶过渡期间,即使调整了环境和营养饲料,也很难保证这些动物的生长速度。先前的研究表明,能量摄入不足和脂肪沉积率降低是仔猪断奶后发育不良的关键因素。我们推测,断奶过渡期间肌肉和脂肪(仔猪发育的关键组织)的发育可能反映了断奶仔猪生长性能的差异。在之前的一项研究中,猪表现出非常明显的肥胖,这在其他动物中没有发现。猪模型已被用于探索由过量脂肪引起的重要疾病,如肥胖、糖尿病、冠心病和动脉硬化。研究猪的肌肉生长也可以使瘦肉型猪的育种提高猪肉利用率)。然而,与人和老鼠相比,对猪的lincRNAs的研究还很少。断奶仔猪肌肉和脂肪发育的分子机制尚不清楚。

材料方法:

本文就纯粹的数据挖掘,采用的公共数据是 GSE65983,是 18个SF样本 和14 个LDM

  • 猪 基因组, ftp://ftp.ensembl.org/pub/release-93/gtf/sus_scrofa
  • NR 数据库 ftp://ftp.ncbi.nih.gov/blast/db/

1.比对和转录本组装

  • 质控:FastQC
  • 过滤:Trimmomatic v0.3.2
  • 比对:HISAT2 v2.0.1
  • 组装:StringTie v1.2.2

2.lincRNA的鉴定

流程图如下所示:

3.LincRNAs和蛋白质编码转录本的比较

猪基因组 共有45788个蛋白编码转录本。

4.富集分析

DAVID

5.lincRNA差异分析

DEseq2 | fold change | > 1 and an adjusted p-value of < 0.05

6.利用QTL对DELs的功能预测

QTL数据库从Animal QTL下载。总共26348个QTL可分为5类,包括(肉和胴体、生产、繁殖、健康和外观)

结果

1.全基因组lincRNAs鉴定

鉴定到1078个候选lncRNA ,其中198个新lincRNA和880个已知lincRNA。大部分lincRNA主要集中在1和13号染色体

  • 新的lincRNA基因的平均转录长度为776bp,而已知的lincRNA基因的平均转录长度为1159bp,都要短于编码基因的长度。
  • 新的lincRNA基因的平均外显子长度为334bp,比已知的lincRNA基因(431bp)短,但比蛋白质编码基因(283bp)长。
  • 蛋白质编码基因的平均外显子数为11.7个,显著高于新的lincRNA基因(2.3个)和已知的lincRNA基因(2.7个)。
  • 新的lincRNA的FPKM略低于已知的lincRNA,显著低于编码基因。

2.LincRNAs的组织表达谱研究

LDM and SF groups.的比较,使用R包, 差异表达的lincRNA (254个上调,337个下调), lincRNA基因比蛋白质编码基因表现出更具组织特异性。

3.富集分析

探讨lincRNAs与其邻近蛋白编码基因的表达关系,在lincRNA(<100kb) 附近转录的表达蛋白编码基因进行了GO分析和KEGG分析,2251个蛋白质编码基因中有955个显著参与了84个生物过程和37个途径。

许多蛋白质编码基因参与肌肉生长和脂肪沉积的生物学过程或途径。从所有的结果中选择了与肌肉发育和脂肪沉积相关的生物学过程和途径,包括葡萄糖稳态、糖原代谢、脂质运输、皮质肌动蛋白细胞骨架组织、胰岛素受体信号通路、胰岛素抵抗和AMPK信号通路(图4B,C)。对这些途径中编码蛋白质的基因进行富集分析,发现有12个基因多次出现,其中AKT和IRS1基因在所有途径中出现了4次。根据先前的研究,AKT可能作用于MYOD,从而影响肌肉分化(Li X.等,2018年)。此外,(Li D.et al.2018)发现lncHR1可作用于AKT,抑制SREBP1C水平,调节脂肪代谢。朱等人于2018年发现miR-146b通过靶向IRS1调节猪原代脂肪细胞的葡萄糖稳态。这些研究表明,发现的靶基因确实能够调节肌肉发育和脂肪代谢。

4.lincRNA功能预测

大量lncRNA的功能是未知的,但是它们主要是cis-regulators,所以可以根据它们临近的蛋白编码基因功能来近似推断,然后表达量的相关性也可以类推到。

  • 根据位置关系推断 使用bedtools等工具!
  • 表达量的相关性, 比如杂志Cancer Medicine, 2020的文章《 Genome-wide DNA methylation analysis by MethylRad and the transcriptome profiles reveal the potential cancer-related lncRNAs in colon cancer》,在进行结直肠癌相关lncRNA的功能富集分析,就是采用LncRN2Target v2.0和StarBase分析与15个lncRNA共表达的蛋白编码基因,其中lncRNA HULC和ZNF667-AS1分别鉴定到28个、9个共表达的蛋白编码基因!

本文的研究者将所有的lincRNAs和DELs与猪QTL数据库进行比较,以推测已鉴定的lincRNA的功能。1078个lincRNAs 对应501个QTL区,881个DELs对应482QTLs。

18个QTL具有多种功能,包括平均日增重、肌纤维发育和肌内脂肪,所有这些QTL都与断奶仔猪的肌肉和脂肪发育有关。然后,我们对QTL的平均日增重 (猪的体重除以饲养的天数)进行了研究,发现93个lincRNAs落在QTL区间内,分布在所有染色体上。

差异表达lincRNA MSTRG.4163可以调节差异表达的潜在靶基因ADRB3 。ADRB3的激活刺激cAMP作用于PKA,并通过HSL磷酸化促进脂解。cAMP可以调节AKT的表达,从而改变糖代谢。

0 人点赞