大话数据结构之查找(哈希表)

Posted -恰饭第一名-

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大话数据结构之查找(哈希表)相关的知识,希望对你有一定的参考价值。

一、哈希表查找定义

散列技术:

在记录的存储位置和它的关键字之间建立一个确定的对应关系f,使得每个关键字key对应一个存储位置f(key)

哈希表:

采用散列技术将记录存储在一块连续的存储空间中,这块连续存储空间称为散列表或哈希表

散列地址:

散列函数得到的存储位置,即散列函数值称为散列地址。

冲突

在构造散列表时,不同的关键字可能得到同一个散列地址,这种关键字不同而散列函数值相同的现象称为冲突。



二、哈希函数的定义方法

两个原则:

  1. 计算简单
  2. 散列地址分布均匀

1、直接定址法

取关键字本身或关键字的某个线性函数值作为散列地址。

直接定址所得地址集的大小和关键字集的大小相同,关键字和地址一一对应,决不会产生冲突。但实际应用能采用直接定址的情况极少,会造成存储空间的浪费, 适用于关键字基本连续的情况。

2、除留余数法

以关键字被某个整数m除后所得余数作为散列地址

h(k)=k % m (m<=表长)

使得数据集合中的每一个关键字通过该函数转化后映射到哈希表的任意地址上的概率相等。理论研究表明,在m取值小于或等于表长的为素数时,冲突可能性相对较少。



3、数字分析法

如果可能出现的关键字的数位相同,且取值事先知道,则可对关键字进行分析,取其中“分布均匀”的若干位或它们的组合作为散列表的地址



4、平方取中法

如果关键字的所有各位分布都不均匀或较分散的位数小于散列地址所需位数,则可取关键字的平方值的中间若干位作为散列表的地址。


由于一个数的平方值的中间几位数受该数所有位影响,将使随机分布的关键字得到的散列函数值也随机 。

取关键字平方后的中间几位作为散列函数地址(若超出表长范围时,可再取模)。




5、折叠移位法

若关键字的位数很多,且每一位上数字分布大致均匀,则可采用移位叠加或间界叠加,即将关键字分成若干部分,然后以它们的叠加和(舍去进位)作为哈希地址。

  • 移位叠加:将各段的最低位对齐相加
  • 间界叠加:两个相邻的段沿边界来回折叠对齐相加



三、处理散列冲突的方法

同义词

关键字不同而散列函数值相同的关键字

冲突

待插入元素的散列地址单元已被占用,该元素无法直接存入到此单元中

冲突原因

散列地址区间小于关键字的取值区间



1、开放地址法

开发定址法就是一旦发生了冲突,就去寻找下一个空的散列地址,只要散列表足够大,空的散列地址总能找到,并将记录存入

1.1、线性探查法




我们在解决冲突的时候,还会碰到如48和37这种本来都不是同义词却需要争夺一个地址的情况,我们称这种现象为堆积

1.2、二次探测法

2、链地址法

将所有关键字互为“同义词”的元素链接在一个线性链表中。此时的散列表以“指针数组”的形式出现, “同义词” 链表按哈希地址在“指针数组”中存储链表的头指针。



四、散列表的查找实现

首先是需要定义一个散列表的结构以及一些相关的常数。其中HasTable就是散列表结构。结构当中的elem为一个动态数组

#define SUCCESS 1
#define UNSUCCESS 0
#define HASHSIZE 12 /* 定义散列表长为数组的长度 */
#define NULLKEY -32768 

typedef int Status;	/* Status是函数的类型,其值是函数结果状态代码,如OK等 */ 

typedef struct

   int *elem; /* 数据元素存储基址,动态分配数组 */
   int count; /*  当前数据元素个数 */
HashTable;

int m=0; /* 散列表表长,全局变量 */

有了结构的定义,我们可以对散列表进行初始化

/* 初始化散列表 */
Status InitHashTable(HashTable *H)

	int i;
	m=HASHSIZE;
	H->count=m;
	H->elem=(int *)malloc(m*sizeof(int));
	for(i=0;i<m;i++)
		H->elem[i]=NULLKEY; 
	return OK;


为了插入时计算地址,我们需要定义散列函数,散列函数可以根据不同情况更改算法

/* 散列函数 */
int Hash(int key)

	return key % m; /* 除留余数法 */

初始化完成后,我们可以对散列表进行插入操作

/* 插入关键字进散列表 */
void InsertHash(HashTable *H,int key)

	int addr = Hash(key); /* 求散列地址 */
	while (H->elem[addr] != NULLKEY) /* 如果不为空,则冲突 */
	
		addr = (addr+1) % m; /* 开放定址法的线性探测 */
	
	H->elem[addr] = key; /* 直到有空位后插入关键字 */

代码中插入关键字时,首先算出散列地址,如果当前地址不为空关键字,则说明有冲突。此时我们应用开发地址法的线性探测进行重新寻址,此处也可更改为链地址法等其他解决冲突的方法

散列表存在后,我们在需要时就可以通过散列表查找要的记录

/* 散列表查找关键字 */
Status SearchHash(HashTable H,int key,int *addr)

	*addr = Hash(key);  /* 求散列地址 */
	while(H.elem[*addr] != key) /* 如果不为空,则冲突 */
	
		*addr = (*addr+1) % m; /* 开放定址法的线性探测 */
		if (H.elem[*addr] == NULLKEY || *addr == Hash(key)) /* 如果循环回到原点 */
			return UNSUCCESS;	/* 则说明关键字不存在 */
	
	return SUCCESS;




以上是关于大话数据结构之查找(哈希表)的主要内容,如果未能解决你的问题,请参考以下文章

大话数据结构之查找(哈希表)

数据结构之哈希表

室友竟只在2021的最后一天就学会了哈希表

算法小讲堂之哈希表|散列表|考研笔记

第七节1:Java集合框架之二叉排序树和哈希表

Python数据结构-哈希表(Hash Table)