哈希表中的查找

Posted 2021-01-28 lfri

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了哈希表中的查找相关的知识，希望对你有一定的参考价值。

基本概念

哈希表（hash table）：又称散列表，其基本思路是，设要存储的元素个数是n，设置一个长度为m的连续存储单元，以每个元素的关键字作为自变量，通过哈希函数(h(k))把k映射到一个内存单元，并把该元素存在这个内存单元中，把像这样构造的线性表存储结构称为哈希表。

哈希冲突（hash collisions）:在构建哈希表时，出现两个不同关键词对应相同的哈希值，这种现象称作哈希冲突。

装填因子（loading factor）：设哈希表空间大小为n，填入表中元素个数为m，则$α=/frac{m}{n}$为哈希表的装填因子。

哈希查找两项基本工作：

计算位置：构造哈希函数确定关键词的位置
解决冲突：应用某种策略解决多个关键词位置相同的问题

这种查找的时间复杂度几乎是常量O(1)，即查找时间与问题规模无关。

哈希函数的构造

一个好的哈希函数：

计算简单，以便提高转换速度
关键词对应地空间分布均匀，以尽量减少冲突

直接定址法

是以关键字k加上某个常量c作为哈希地址的方法，其哈希函数为：h(k)=k+c

特点：哈希函数计算简单。当关键字分布基本连续时，可以用直接定址法；否则，将造成内存单元大量浪费

除留余数法

是用关键字k除以整数p所得的余数作为哈希地址，表示为h(k)=k mod p

特点：计算比较简单，适用范围广，是最经常使用的一种哈希函数。

这种方法的关键是选好p，使得每个关键字经转换后映射到哈希表任意地址的概率相等。理论表明，p取不大于表长的素数时效果最好

数字分析法

是指提取关键字中取值较均匀的数字作为哈希地址

特点：它适用于所有关键字已知的情况，需要对关键字每一位的取值分布情况加以分析。

其它构造整数关键字的哈希函数还有平方取中法、折叠法、随机数法等。

哈希冲突的解决方法

开放定址法

线性探测法

是指从发生冲突的地方开始，依次探测下一个地址（表尾的下一个地址是表头），直到找到一个空闲的单元为止。

表示为：d₀=h(k) d_i=((d_i-1+1)) mod size

特点：操作简单。但有一个重大的缺陷是容易产生聚集现象，当一个发生冲突，后面紧接着的单元都会由于前面的堆积发生冲突。

平方探测法

是指发生冲突时以±i²进行探测，公式为：d₀=h(k) d_i=((d₀± i²)) mod size

特点：是一种较好的处理冲突的方法，其缺点是不一定能探测到哈希表上的所有单元，但至少能探测到一半单元。

理论表明，哈希表的长度为4k+3（k为整数）形式的素数，平方探测法可以探测到整个哈希表空间。

其它方法还有伪随机序列法、双哈希函数法等

拉链法

是指将所有哈希值相同的关键字用单链表链接起来。

在这种方法中，哈希表的每个单元存放的不再是元素本身，而是一个个单链表的头结点。

与开放定址法比较：

处理冲突简单，无堆积现象，因此平均查找长度较短
由于单链表的结点是动态申请，适合元素规模未知的情况
开放地址法为了减少冲突要求装填因子较小，故当数据规模较大时浪费空间；拉链法节省空间
用拉链法构造的哈希表中，删除结点比较简单

哈希表的性能分析

用平均查找长度（ASL）来度量查找表的查找效率：成功、不成功

哈希表的性能就是看比较次数，而比较次数取决于冲突的多少，影响冲突的因素：

哈希函数是否均匀
处理冲突的方法
装填因子α

我们这里只考虑后两种因素，主要是一些理论上的结果

线性探测法

可以证明，线性探测法的期望探测次数为：

技术分享图片

当α=0.5时，ASLu=2.5次，ASLs=1.5次。

平方探测法

可以证明，平方探测法的期望探测次数为：

技术分享图片

当α=0.5时，ASLu=2次，ASLs=1.39次

拉链法

把所有单链表的平均长度定义成装填因子α，α有可能超过1，可以证明，其平均期望探测次数p为：

技术分享图片

当α=1时，ASLu=1.37次，ASLs=1.5次

总结

选取合适的哈希函数h(key)，查找效率的期望是O(1)
以较小的α为前提，实质是以空间换时间
哈希表对关键词是随机存储的，不便顺序查找
不适合范围查找、最大最小值查找

参考链接：中国大学mooc 陈越、何钦铭数据结构

以上是关于哈希表中的查找的主要内容，如果未能解决你的问题，请参考以下文章