Python在生物信息学中的应用:在字典中将键映射到多个值上

2024-02-21 16:29:44 浏览数 (1)

我们想要一个能将键(key)映射到多个值的字典(即所谓的一键多值字典[multidict])。

解决方案

字典是一种关联容器,每个键都映射到一个单独的值上。如果想让键映射到多个值,需要将这多个值保存到另一个容器(列表、集合、字典等)中。例如:

代码语言:javascript复制
d = {
    'a' : [1, 2, 3],
    'b' : [4, 5]
}
e = {
    'a' : {1, 2, 3},
    'b' : {4, 5}
}

选择使用什么容器取决于你的实际需求。如果你想保持元素的插入顺序可以使用列表, 如果想去掉重复元素就使用集合(并且不关心元素的顺序问题)。

你可以很方便地使用 collections 模块中的 defaultdict 来构造这样的字典。 defaultdict 的一个特征是它会自动初始化每个 key 刚开始对应的值,只需要关注添加元素即可。例如:

代码语言:javascript复制
from collections import defaultdict

d = defaultdict(list)
d['a'].append(1)
d['a'].append(2)
d['b'].append(4)

d = defaultdict(set)
d['a'].add(1)
d['a'].add(2)
d['b'].add(4)

需要注意的是, defaultdict 会自动为将要访问的键(即使目前字典中并不存在这样的键)创建映射实体。如果你并不需要这样的特性,你可以在一个普通的字典上使用 setdefault() 方法来代替。比如:

代码语言:javascript复制
d = {} # 一个普通的字典
d.setdefault('a', []).append(1)
d.setdefault('a', []).append(2)
d.setdefault('b', []).append(4)

但是很多程序员觉得 setdefault() 用起来有点别扭。因为每次调用都得创建一个新的初始值的实例(例子程序中的空列表 [] )。

讨论

一般来说,构建一个多值映射字典是很容易的。但是如果试着自己对第一个值做初始化操作,就会变得很杂乱。例如,可能会写出这样的代码:

代码语言:javascript复制
d = {}
for key, value in pairs:
    if key not in d:
        d[key] = []
    d[key].append(value)

使用 defaultdict 代码会清晰得多:

代码语言:javascript复制
d = defaultdict(list)
for key, value in pairs:
    d[key].append(value)

参考

  • 《Python Cookbook》第三版
  • http://python3-cookbook.readthedocs.org/zh_CN/latest/

0 人点赞