很久都没有更新推文了,脑壳羞涩,快码不出字的节奏!
最近在尝试内部 Galaxy 一些新工具的开发和 Galaxy 核心版本的升级测试,发现一些问题,简单记录和聊一下吧。
一些尝试
对于在线的 web 一类生信平台,个人一直是情有独钟的,随走随用只需要一个浏览器即可,很是方便。好用开源的在线 web 生信分析平台不多,Galaxy 算是一个。
出于需要,借助 Galaxy 的开源软件做了一些内外部团队使用的工具,对非编程背景的研究人员而言也算友好,至少学习的操作的难度曲线基本可以忽略。
一些问题
一直在关注 Galaxy 各个版本的更新和其他一些功能,结合最近尝试的一些升级尝试,发现了一些问题。
release_21.01,发现从本地电脑上传数据的工具存在异常。
release_21.05 和 dev (release_20.09) 版本,链接 postgresql 数据库在初始化部署的时候,由于异常导致无法正常安装。
想把 Galaxy 的一些 static 和 test-data 放到 gitee,很可惜这样会导致 test-data 直接 fetch 到 Galaxy 时出现 403 异常。但是,同样的操作在 GitHub 上时,一些正常!
一些思考
生物信息有很多小而实用的小工具,像序列处理、统计、绘图等等,这些工具在命令行下可以信手拈来,但基于 web 集成的平台却极少(可能个人孤陋寡闻)。在绘图领域,个人接触过感觉比较好用的有 Hiplot、ImageGP,或者是更大一点的 omicshare tools,以及其他的一些平台。
大多数这些站点和平台都是自成体系,然后各自为战进行维护升级,自己造完车后自己再去造轮子。这样的情况在国内的生物类公司尤为明显,几乎每一个大一点的生物公司都有一个自己所谓的"云平台",而用户每接触一个这样的平台都要先花一段时间去熟悉这些平台的操作使用逻辑,然后再去上传自己的数据和分析。而且大部分的这些平台都是闭源的(所以轮子也只有它自己才能造)。
对于一些逻辑比较简单的平台还好,对那些大而臃肿,逻辑极其复杂的平台而言,虽然提供了使用教程,但是用起来非常耗时,费心费力。
国内为什么没有人考虑过开源的生物信息云平台,集中力量办大事?可能有利益或者其他原因,但个人感觉如果有,会更香。
简单总结
在《Galaxy Project | 生信人最值得学习的开源项目之一 · 语雀》分享过个人和 Galaxy 的一些经历,兜兜转转才发现工具才是 Galaxy 的核心(Workflow、Visualize 也是重头戏),专注优化和开发同样重要。