无序映射的实现

Posted 2023-02-17

技术标签:

【中文标题】无序映射的实现【英文标题】：Implementation of an Unordered Map 【发布时间】：2021-05-02 10:28:38 【问题描述】：

我正在尝试理解无序映射和散列。据我了解，无序映射内部有一个哈希函数，它接受一个类型为 T 的对象，并返回一个 int，然后使用 int 作为内部数组的索引。它在数组位置使用类型为 T 的对象的 List，因此如果该位置已经存在某些内容，则将添加的内容插入到 List 中。

从概念上讲，使用 Set 代替 List 会提高效率吗？（也许以某种方式二进制搜索和排序的集合有助于拥有一个列表）

或者也许是一个向量而不是列表？（也许随机访问对列表有帮助。）

【问题讨论】：

这个被关闭的副本并没有解决这里的问题，即“使用集合[或向量]而不是链表[在每个桶中]会提高效率吗？”。跨度> 【参考方案1】：

数据类型应该无关紧要，因为在大多数情况下，散列索引处的容器只包含零个或一个元素。如果你经常在那里有很多元素，那么哈希映射无论如何都会降低性能。对此的补救措施是调整初始数组的大小，std::unordered_map<> 会自行调整。但是，如果您有一个不好的哈希函数导致许多哈希冲突，则切换哈希函数对于正确操作是必要的。

【讨论】：

【参考方案2】：

如果在同一个存储桶中经常有很多个冲突，那么使用集合比使用列表更有效，并且确实出于这个原因，一些 Java 哈希表实现采用了集合。向量不能用于std::unordered_map 或std::unordered_set 实现，因为当它们超过其容量时需要重新分配到不同的内存区域，而标准要求无序容器中的元素永远不会被其他操作移动容器。

也就是说，哈希表的本质是 - 具有高质量的哈希函数 - 在特定存储桶中碰撞的元素数量的统计分布仅与负载因子有关。如果你不能相信碰撞不会失控，也许你不应该使用那个散列函数。

一些细节：标准库无序容器的默认 max_load_factor()（load_factor() 是 size() 与 bucket_count() 的比率）为 1.0，并且具有强大的伪随机散列函数，它们将有 1 /e ~= 36.8% 的桶是空的，有一个元素，一半有 2 个元素（~18.4%），三分之一有 3 个元素（~6.13%），四分之一有 4 个元素（~1.53 %)，五分之一的元素（~0.3%），六分之一的元素（~0.05%）。正如您所希望看到的，必须搜索许多元素是非常罕见的（即使在哈希表处于其最大负载因子的最坏情况下），因此列表方法通常就足够了。

【讨论】：

以上是关于无序映射的实现的主要内容，如果未能解决你的问题，请参考以下文章