提高 Python 中超大字典的性能

Posted 2023-02-25

技术标签:

【中文标题】提高 Python 中超大字典的性能【英文标题】：Improving performance of very large dictionary in Python 【发布时间】：2013-04-21 20:04:24 【问题描述】：

我发现如果我一开始初始化一个空字典，然后在for循环中向字典中添加元素（大约110,000个键，每个键的值是一个列表，也在循环中增加），速度像 for 循环一样下降。

我怀疑问题是，字典在初始化时不知道键的数量并且它没有做一些非常聪明的事情，所以存储冲突可能变得非常频繁并且速度变慢。

如果我知道键的数量以及这些键的确切含义，python 中是否有任何方法可以使 dict（或哈希表）更有效地工作？依稀记得，如果知道key，就可以巧妙地设计hash函数（完美hash？），提前分配空间。

【问题讨论】：

哈希表的性能可以通过删除/减少冲突来提高。这可以通过预先分配最佳数量的桶来实现，或者从一组已知的密钥中创建一个完美的哈希函数。不幸的是，Python 字典无法让您对哈希表的内部进行低级访问，因此您无法以这种方式对其进行微调。这个字典需要多少内存？（你是说列表的大小在增加吗？）可以用pympler 来衡量。如果大小导致 Python 使用交换内存，您可能会看到速度急剧下降。 【参考方案1】：

如果我知道键的数量以及这些键的确切含义，有吗在 python 中使字典（或哈希表）工作得更多的任何方式有效率的？我依稀记得，如果你知道钥匙，你可以巧妙地设计散列函数（完美散列？）并分配预先留出空间。

Python 没有公开预调整大小选项来加速字典的“成长阶段”，也没有提供对字典中“位置”的任何直接控制。

也就是说，如果密钥总是预先知道，您可以将它们存储在set 中，并使用dict.fromkeys() 从集合中构建您的字典。该类方法是optimized to pre-size the dictionary based on the set size，它可以填充字典而无需对 __hash__() 进行任何新调用：

>>> keys = 'red', 'green', 'blue', 'yellow', 'orange', 'pink', 'black'
>>> d = dict.fromkeys(keys)  # dict is pre-sized to 32 empty slots

如果您的目标是减少冲突，您可以对字典中的插入顺序进行实验，以尽量减少堆积。（查看 Knuth 的 TAOCP 中的 Brent's variation on Algorithm D 以了解这是如何完成的）。

通过为字典检测纯 Python 模型（例如 this one），可以计算替代插入顺序的探测器的加权平均数。例如，插入 dict.fromkeys([11100, 22200, 44400, 33300]) 平均每次查找 1.75 个探测。这超过了 dict.fromkeys([33300, 22200, 11100, 44400]) 每次查找的 2.25 次平均探测。

另一个“诀窍”是通过将字典欺骗为increasing its size without adding new keys 来增加字典的冗余度：

 d = dict.fromkeys(['red', 'green', 'blue', 'yellow', 'orange'])
 d.update(dict(d))     # This makes room for additional keys
                       # and makes the set collision-free.

最后，您可以为您的密钥引入自己的自定义 __hash__()，以消除所有冲突（可能使用完美的哈希生成器，例如 gperf）。

【讨论】：

哎呀，为什么这没有得到更多的支持？我猜 Ray 的分数已经够多了 :)。

以上是关于提高 Python 中超大字典的性能的主要内容，如果未能解决你的问题，请参考以下文章