nature杂志给你的生物信息学数据处理11个小技巧

2020-02-20 14:53:54 浏览数 (2)

nature杂志的TECHNOLOGY FEATURE 栏目在13 JANUARY 2020发表了一个有趣的小短文:Eleven tips for working with large data sets,副标题是:Big data are difficult to handle. These tips and tricks can smooth the way.

我简要概括一下:

珍惜您的数据
  • 多处备份原始数据
  • 冷存储
可视化
  • 一图胜千言
  • 流程里每个步骤独立质量控制,组合质量控制
工作流

结合了软件代码,文本和图形的文档,交互式报表

  • rmarkdown
  • jupyter notebook
版本控制
  • md5文件
  • zenodo

数据的描述信息

  • 描述了如何收集,格式化和组织观测
自动化
记录时间消耗
  • 大数据集需要高性能计算(HPC)
  • 云服务器提供商
系统运行环境
  • 操作系统和软件库
  • Docker容器
流程里面不要下载数据
  • 数据库文件打包在流程
学一门编程语言
  • 基础命令行操作,基本上指的就是Linux啦
  • 诸如Python或R之类的编程语言,我们生信技能树B站有全套免费教学视频哈:生信技能树-R语言视频课听后感 (10万 的播放量就看这个春节)
善用帮助资源
  • Stack Overflow
  • 现场培训,比如广州专场(全年无休)GEO数据挖掘课,带你飞(2.8-2.9)

0 人点赞