专业生物信息学家也懂大家的痛,这不,单细胞测序数据兴起的时代,大佬们就在推出应对单细胞测序数据的在线工具 (Granatum),方便你我他。
聊一下这个分析平台的背景,该平台由夏威夷大学癌症中心等研究团队开发,相关学术论文发表在 Genomic Medicine杂志, IF=8.9. 感谢大佬们开发了这么好用的工具。
另外,Granatum在线工具也是开源的,可以部署到本地,或下载下来学习下其代码写法。
来来来,先看看大概长啥样:
界面干净清爽,一目了然,各个数据分析步骤都列出了,来示例操作一波,检验下效果如何,假设你有一份单细胞的数据,格式如下:
表达数据 (生信宝典注:原始reads count,后面有更详细示例):
meta data信息准备一下 (生信宝典注:meta data包含的是样本属性信息,第一列为样本名字,与表达矩阵第一行一一对应,顺序也最好一致。其他列是样本的来源、分组、其他表型信息、reads比对信息等,有多少写多少,至少2列。属性信息可用于后续的可视化展示、批次效应移除、差异比较等。)
数据格式详解
准备上传数据了,并且提交:
移除批次效应(生信宝典注:下拉框的值对应于样本的属性信息列),操作简单,随心所欲的点击式完成:
PCA和tSNE (在网站点击下就可以做,样品属性信息这里用来设置颜色。这属于质控部分,先看下聚类结果。还在用PCA降维?快学学大牛最爱的t-SNE算法吧(附Python/R代码) || PCA主成分分析实战和可视化 | 附R代码和测试数据)
选择标准化方法,进行数据标准化(生信宝典注:标准化后数据的分布一致):
过滤低表达基因 (生信宝典注:过滤低表达基因不只可以加快后续计算速度,还有利于多重假设检验校正)
选择聚类方法,进行聚类,聚类结果可以直接下载
差异分析,提供各种算法的选择:
实际上不需要这么长时间的,稍等几分钟结果就来了
顺手再做个KEGG富集分析
蛋白网络分析和发育轨迹分析
其他单细胞分析软件比较
下面的白介素同学不再演示了,总之就是能完成一套分析,但注意不是从原始数据开始的,而是提供了表达矩阵开始的。 个人认为,就应用而言没有必要从原始数据开始,完全可以从表达矩阵开始,自己做适当的个性化分析,这样的工具足够了,比盲目的为了解决分析步骤去傻傻的学了会R语言有效得多。还是那句话,分工协作产生效能,是现代社会的本质。 有实力的研究团队,在这样一个组学时代,当然是需要配备专业生信专家来加速课题进展的。请不起专业的,偶尔用一用在线工具,辅助下分析,挺好的。