circRNA表达量差异分析网页工具和代码哪个更可靠

2023-02-27 20:56:33 浏览数 (1)

几年前我们在生信技能树已经系统性的总结了circRNA的相关背景知识

  • 首先了解一下circRNA背景知识
  • circRNA芯片分析的一般流程
  • circRNA-seq分析的一般流程
  • ceRNA-芯片分析的一般流程
  • circRNA_ID转化

而且circRNA领域的芯片或者测序技术拿到的也是表达量矩阵,所以表达量矩阵的差异分析呢,都可以看到我8年前的教程,推文在:

  • 解读GEO数据存放规律及下载,一文就够
  • 解读SRA数据库规律一文就够
  • 从GEO数据库下载得到表达矩阵 一文就够
  • GSEA分析一文就够(单机版 R语言版)
  • 根据分组信息做差异分析- 这个一文不够的
  • 差异分析得到的结果注释一文就够

反正这些芯片技术都是十几年前的了,大家不要觉得我8年前的教程有什么过时的地方哈。值得注意的是表达量芯片和表达量测序矩阵的分析方法是不一样的,主要是因为同样是矩阵里面的数值范围不一样,如果是芯片表达量矩阵通常是归一化后范围是0~15直接,很容易boxplot检测。但是如果是测序后counts矩阵,每个基因的每个样品的表达量是数数后的整数值,所以不能是常规limma包。

而绝大部分小伙伴喜欢网页工具做差异分析,比如:一文教你在线分析circRNA表达矩阵,举例说明了进入circMine的网页服务器页 circMine ( http://www.biomedical-web.com/circmine/ ) ,三步上传完你的数据,你就可以开始按按钮选择后续的功能分析了。

但是GSE159808数据集页面提供的GSE159808_ciri2.annot.txt下载文件,很明显是count矩阵,而这个circMine的网页其实并不能很好的操作count矩阵形式的表达量矩阵,而是针对表达量芯片矩阵设计的。

这个网页工具确实功能比较齐全,不需要写代码,仅仅是上传表达量矩阵,进行合理的分组后就可以一次性完成全部的分析。The seven analyses include general analysis, differential expression, boxplot, volcano plot, heatmap plot, GO enrichment, and KEGG enrichment.

学徒作业

首先跟着教程:一文教你在线分析circRNA表达矩阵,然后自己写代码完成GSE159808数据集的差异分析,两次差异分析对比一下是否区别很大。

另外,完成GSE97332 这个数据集, https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE97332 ,的差异分析,网页工具或者代码都可以, 做出一个热图即可,详见:所以GSE号也可以弄错吗

(A) The heat map showed the top 10 most increased and decreased circRNAs in HCC tissues as compared to that in the matched nontumor tissues analyzed by circRNAs Arraystar Chip.

帮我验证一下,top10的上下调circRNAs 是不是一样的!

一次circRNA差异分析可以发多少篇文章?

比如 PRJNA391554 数据集就是一个简简单单两分组的circRNA的差异分析,

The 5-8F NPC cell line is widely used and has high metastatic potential. We used this cell line for high-coverage RNA-seq. A total of 6153 circRNAs were detected. The RNA-Seq data was uploaded to the NCBI database (accession number: PRJNA391554).

可以看到,起码有4篇文章了:

0 人点赞