做教程这些年,经常有小伙伴在后台求助我们,希望可以做一个对咱们生信工程师来说是举手之劳的数据分析,所以有了:最低仅需800,就有一个生信工程师为你服务! ,可以看到,都是常规分析,比如:
- 明码标价之公共数据库的生存分析
- 明码标价之公共数据集的WGCNA
其实就是难者不会,会者不难 ,毕竟每个人要成为一个能做这些举手之劳分析的工程师,就需要至少一年的努力学习,为大家的学习和付出买单是理所当然的。
不过,近日,生物信息学领域知名国际期刊《生物信息学简报》( Briefings in Bioinformatics)在线发表由国内多家单位/机构/生物信息学开源社区共同开发的一个免费的综合性生物医学数据可视化网站 Hiplot(https://hiplot.org)。里面的涵盖了我们:最低仅需800,就有一个生信工程师为你服务! 的大量分析步骤,尤其是可视化步骤:
出色的可视化环节
绝大部分可视化小工具都吊打一般的的生信初学者了,更让人惊喜的是常规组学数据分析里面的大家喜闻见乐的WGCNA,GSEA等步骤都是被做成了小工具:
小工具
可以说是,完全替代了我们:最低仅需800,就有一个生信工程师为你服务! 的大部分业务,比如:
- 明码标价之公共数据库的生存分析
- 明码标价之公共数据集的WGCNA
自 2020 年上线以来,Hiplot 可视化工具箱已提供超过 240 个一键式数据可视化分析插件,涉及基础统计图形、组学和其他常见的生物医学数据可视化分析任务。注册用户近 3 万人,日均任务超 3000 次,谷歌学术网站显示网站链接被引用超 200 次。
而且该在线可视化工具箱Hiplot也考虑到了大家的个性化学习需求,在出美图的同时也会有对应的R代码分享,而且有大量开源教学书籍:
大量开源教学书籍
不过,开箱即用的工具虽然多,但是如果大家要立足于这个数据分析领域,就还是得自己从零开始学习了,起码的计算机基础就无需多言了,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理:
- 《生信分析人员如何系统入门R(2019更新版)》
- 《生信分析人员如何系统入门Linux(2019更新版)》
有了计算机基础,还需要 develop and maintain standard analytical pipelines, and conduct analyses on various large-scale datasets including, but not limited to, Microarray, RNA-Seq, ATAC-Seq, Chip-Seq, and single cell RNA-Seq.
正是因为掌握了如此多的数据分析技能,我们作为开发者才能携手搭建起来这个Hiplot(https://hiplot.org)。
所以,但是相信我,去看看这个免费的综合性生物医学数据可视化网站 Hiplot(https://hiplot.org),觉得是不虚此行。
自 2020 年上线以来,Hiplot 可视化工具箱已提供超过 240 个一键式数据可视化分析插件,涉及基础统计图形、组学和其他常见的生物医学数据可视化分析任务。注册用户近 3 万人,日均任务超 3000 次,谷歌学术网站显示网站链接被引用超 200 次。
背景
与几十年前相比,生物学/生物医学与计算科学之间的直接联系正变得越来越紧密。多维数据可视化技术,如现代统计图形和组学数据可视化,已成为生物医学数据挖掘中不可或缺的技术手段,对于提高相关数据分析结果的可解释性、可重复性和正确性有重要意义。研究人员通常可以通过三种方式进行生物医学数据可视化,包括传统的商业桌面程序、编程语言/库和在线网页工具。作为数据分析任务中的关键步骤之一,生物信息学家和其他专门的数据分析人员通常会使用编程语言(如R、Python库/工具箱)来绘制高质量和可供出版的可视化图形。然而,对于缺乏编程技能的生物学家和临床医生来说,基于命令行工具来产生高质量的可视化分析图表仍然相对困难。在此背景下,基于现代网页技术的生物医学数据可视化工具在科学社区正变得越来越流行。十多年前,用户大多只能通过商业化桌面程序来进行日常的科研数据可视化分析。近年来,用户友好的在线网页工具已逐渐成为复杂生物医学数据深度挖掘的理想选择。随着知名的生物信息学云平台的建立,如 Galaxy 和 DNAnexus,一些常见的组学数据上游分析任务已经相对简化,比如序列比对、突变检测和基因组表观调控分析。然而,生物医学数据的下游分析功能,特别是可发表级别的科学图形和交互式数据挖掘,在已有的网站上仍然非常缺乏。
知名的生物信息学云平台 Galaxy 提供了非常有限的生物医学可视化任务插件,使用方法上也相对繁琐,且未针对基于表格的轻量级可视化分析任务进行相应优化。美国圣裘德儿童研究医院组学数据中心的可视化模块为癌症基因组学提供了 20 个基于 JavaScript 的在线可视化分析插件,但其基础科学数据可视化功能仍然空白。另外一个已发表的 ImageGP 网站,自 2017 年以来仅开发了 16 个用于科学数据可视化的在线分析插件。
针对用户提出的不同可视化分析需求,仍有大量工作需要科学社区共同努力完成。目前,复杂的用户接口和不方便的网站使用方法是用户放弃在线网页工具的首要因素。在已有的生物信息学在线分析工具中,很少有可以像桌面软件那样直接支持使用电子表格来预览和编辑数据。而自动化组合和排版多个图形的常用功能大多被忽视。其他一些功能特性方面的不足,如可视化任务输出不及时,参数/结果重现不方便,以及缺乏跨平台和易于使用的命令行程序,也可能会阻碍在线可视化分析网页工具的广泛应用。如何简化用户和开发者的使用和开发工作流程以提高效率已成为该领域的主要挑战之一。它依赖整体网站设计中各个部分的优化,并需要实现可以提高生产力或减少时间花费的核心功能特性。主要包括提供良好设计的用户网页客户端/命令行界面(CLI)程序,高质量的任务输出,高效的基础任务,数据/参数/结果/错误的简易再现,以及必要的用户支持服务。另外,为了提高任务插件的可用性和定制化程度,相关工具需要在团队的长期维护和支持下不断测试和更新。同时,一个聚焦于可视化数据分析相关任务的协作社区将可以推动高质量生物医学数据综合可视化工具的长期建设和复杂在线应用的构建、测试和持续更新。
Hiplot 可视化分析工具箱(240 )
研究者之前发起了一个跨学科的生物信息学协作社区,Openbiox,并在这项工作中共同建立了一个新兴的易于使用和可扩展的在线网页分析工具,Hiplot(https://hiplot.org)。据我们所知,这是目前最大规模的社区驱动的协作尝试之一,以期建立一个免费的网页服务来辅助高质量、发表级别的综合性生物医学数据交互式可视化分析工具。大多数现代统计图形已经在这个网页服务中实现。用户可以使用这个网站上的开放工具来进行日常的生物医学数据可视化分析,比如进行数据的相关性、分布、百分比、演变、流动关系、排名和空间特征分析,且不受操作系统和软件环境的限制。该网站还提供了与组学和临床数据分析相关的可视化功能则可以进一步辅助生物医学和生物学领域的研究人员开展相关研究工作。特别地,利用该网站提供的一键式分析工具,用户可以自由探索癌症多组学数据集、基因组结构、染色体分布、遗传变异、群体遗传学、基因表达谱、基因通路富集和肿瘤微环境(TME)。与此同时,他们还提供了许多基于机器学习的可视化分析功能,包括无监督聚类、降维算法(dimensionality reduction algorithm,DRA)、线性/非线性回归、荟萃分析(meta-analysis)、生存分析和风险模型等,帮助用户关联其他临床特征,建立临床预测模型等。
自 2019 年 10 月以来,Openbiox 生物信息学社区和 Hiplot 开发协作小组已实现了数百个与生物医学数据可视化分析挖掘相关的网页插件,可以辅助科研人员完成大量之前只能由高级生物信息学家/数据分析人员完成的发表级别可视化图形。网站上已部署的可视化插件可以为生物医学数据挖掘提供一个重要而有用的免费在线资源。同时,该论文还提供了一系列基准测试结果可以为相关工具的性能评估和优化工作提供参考数据。生物信息学/生物医学研究人员以及其他缺乏编程技能的数据科学家将可以从这个新兴的免费可视化工具中长期受益。
Openbiox 生物信息学开源社区成员为该网站维护和贡献了大量插件,且相关工具完全开放和免费使用,部分源代码已在 GitHub 开源(https://github.com/hiplot)。另外,该项目相关开发人员已开始新一轮生物信息学项目建设,希望未来可以持续召集生物信息学同行共同建设更多类似的高质量项目。
引用方式
Hiplot: a comprehensive and easy-to-use web service for boosting publication-ready biomedical data visualization,Briefings in Bioinformatics, 2022;, bbac261,https://doi.org/10.1093/bib/bbac261