LncBook:综合性的人类lncRNA数据库

2019-12-19 14:51:37 浏览数 (1)

欢迎关注”生信修炼手册”!

随着lncRNA研究的发展,lncRNA的数量越来越多,但是拥有功能注释的lncRNA只占了其中很小一部分。为了更好的开展lncRNA的功能研究,科学家收集文献中人类lncRNA相关的数据,包括了表达量,相关疾病,甲基化位点,SNP位点,功能描述等信息,并整理成了数据库LncBook, 网址如下

http://bigd.big.ac.cn/lncbook/index

该数据库中包含以下8种lncRNA相关信息

1. LncRNAs

共包含277044个lncRNA, 既有实验验证的lncRNA,也有软件预测的lncRNA,收集了来自Gencode, RefSeq, Noncode, Lncipedia, MiTranscriptome 等数据库中的lncRNA, 在预测lncRNA时,采用了CPAT, PLEK, LGC3个软件结果的交集。

这部分提供lncRNA的ID, 染色体位置,长度,外显子个数,类型等基本信息,示意如下

2. Featured LncRNAs

这部分只包含来自lncRNAWiki数据库中的有功能注释和文献支持的lncRNA, 结果示意如下

3. Function

这部分给出lncRNA的生物学功能注释和参与的生物学过程,共包含以下5种类别的功能

  1. transcriptional regulation
  2. ceRNA
  3. splicing regulation
  4. protein localization
  5. RNAi

示意如下

4. Diseases

这部分给出lncRNA相关的疾病信息,包括了实验验证和预测两种,实验验证的数据直接从lncRNADiseaselncRNAwiki这两个数据库得到,预测主要是结合了其他组学的数据,包括以下3种策略

  1. 相比正常样本,如果在肿瘤样本中某个lncRNA启动子区存在高甲基化区域,则认为该lncRNA与疾病相关;
  2. 如果某个lncRNA区域存在于疾病相关的SNP位点,则该lncRNA与疾病相关;
  3. 如果某个lncRNA与5个以上与疾病相关miRNA(miRNA相关疾病信息来自HMDD数据库)具有相互作用,则该lncRNA与疾病相关;

结果示意如下

5. Expression

通过分析HPAGTEx两个公共项目的转录组数据,给出lncRNA在各个组织中的FPKM表达量值,示意如下

通过分析在不同组织中的表达量,可以用于判断组织特异性lncRNA还是管家lncRNA, 计算公式如下

N代表组织的个数,x代表每个组织中归一化之后的表达量,这里的归一化是将每个组织中的表达量除以所有组织中最大的表达量。

6. Methylation

通过分析TCGA和ENCODE数据库的数据,给出lncRNA相关的甲基化信息,示意如下

7. Variation

将dbSNP数据库中的SNP位点映射到lncRNA上,同时提供了来自COSMICClinVar数据库的注释信息,以及1000G中的频率信息,结果示意如下

8. lncRNA与miRNA的相互作用

采用tagetScan和miRanda两款软件来预测lncRNA与miRNA的相互作用,取交集作为最终的结果,实验证据主要来自于starbase数据库,结果示意如下

除此之外,还提供了一下4种工具

  1. Blast
  2. LGC
  3. Classification
  4. Conversion

Blast用于将输入序列和数据库中的lncRNA序列进行比对,LGC用于分析序列的蛋白编码潜能,预测lncRNA;Classification用于根据染色体位置对基因进行分类,Conversion用于提供多个lncRNA数据库中ID的转换,结果示意如下

lncBook和lncRNAwiki是同一个开发团队,lncBook可以看做lncRNAwiki的升级版本,更多的用法和信息请参考官网的帮助文档。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

0 人点赞