本文简要介绍一下生物信息学中保存键值对的最佳实践。
键值对是常见的一种数据结构:Python 中的字典,Perl 中是 Hash 等。如何将键值对保存到文件中,除了序列化方法,如 Python 的 pickle 模块,常见的还有保存为 INI、json 或 YAML 文件。
我的最佳实践是:
数据结构比较简单的情况下,用 json 或 YAML,如果比较复杂,使用更优雅和强大的 YAMl 格式。
先看一个 json 文件,长下面这样:
代码语言:javascript复制{
"parameters": [
{ "name":"baidu" , "url":"www.baidu.com" },
{ "name":"google" , "url":"www.google.com" },
]
}
同样的内容,YAML 格式为:
代码语言:javascript复制parameters:
- name: baidu
url: www.baidu.com
- name: google
url: www.google.com
可以看到,json 更严谨,但略显繁琐,没有 YAML 简洁优雅。这里简要介绍一下 YAML 文件格式。
基本语法
- 大小写敏感
- 使用缩进表示层级关系
- 缩进不允许使用tab,只允许空格
- 缩进的空格数不重要,只要相同层级的元素左对齐即可
- '#'表示注释
键和值不需要分别使用引号,以及允许'#'表示注释,是 YAML 与 json 的两个非常不一样的点,这使得 YAML 更为优雅和强大。
数据类型
YAML 支持 3 种基本的数据类型:
- 对象:键值对的集合,又称为映射(mapping)/ 哈希(hashes) / 字典(dictionary)
- 数组:一组按次序排列的值,又称为序列(sequence) / 列表(list)
- 标量:单个的、不可再分的值
对象示例:
代码语言:javascript复制name: baidu
键之后是一个“:”号,然后一个英文空格,接着是值。
数组示例:
代码语言:javascript复制Person:
- one
- two
- three
这跟 Markdown 语法的列表一样:每行一条记录,每条记录以一个减号“-”开头,接着是一个空格,然后是记录内容。
标量示例:
代码语言:javascript复制cpu: 1
mem: 4基本的,不可再分割的值就是标量,如 cpu 后面的 1,可以表示 1 条线程,mem 后面的 4,可以表示 4G 内存。
当然,由基本的数据类型可以组成复杂的数据类型,本文不展开说。
写在最后
用 INI 保存键值对感觉存在于远古时代,改用 json 或 YAML 吧。


