数据结构与算法各种字符串Hash函数比较

Posted 码农有道

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据结构与算法各种字符串Hash函数比较相关的知识,希望对你有一定的参考价值。

哈希表是项目中最常用的的数据结构,如数据库索引、map、缓存等地方。关于哈希表这种数据结构,一个最关键的问题是如何设计一个优秀的哈希函数,下文是一些经典的字符串哈希函数性能测试比较及其相应的C语言实现。大家可以在项目中根据实际场景选择合适的直接使用。

:关于哈希表,不熟悉的同学可以查看前面的文章、。



hash函数的性能测试比较

常用字符串哈希函数有BKDRHash,APHash,DJBHash,JSHash,RSHash,SDBMHash,PJWHash,ELFHash等等。对于以上几种哈希函数,我对其进行了一个小小的评测。

其中:

数据1为100000个字母和数字组成的随机串哈希冲突个数。

数据2为100000个有意义的英文句子哈希冲突个数。

数据3为数据1的哈希值与1000003(大素数)求模后存储到线性表中冲突的个数。

数据4为数据1的哈希值与10000019(更大素数)求模后存储到线性表中冲突的个数。

经过比较,得出以上平均得分。平均数为平方平均数。可以发现,BKDRHash无论是在实际效果还是编码实现中,效果都是最突出的。APHash也是较为优秀的算法。DJBHash,JSHash,RSHash与SDBMHash各有千秋。PJWHash与ELFHash效果最差,但得分相似,其算法本质是相似的。

几种经典hash函数的实现

下面给出各种哈希函数的C语言程序实现代码,避免大家在项目中重复造轮子。

// BKDR Hash Function
unsigned int BKDRHash(char *str)
{    unsigned int seed = 131; // 31 131 1313 13131 131313 etc..    unsigned int hash = 0;  
 
   while (*str)    {        hash = hash * seed + (*str++);    }    
   return (hash & 0x7FFFFFFF);
}

//SDBMHash
unsigned int SDBMHash(char *str)
{    unsigned int hash = 0;
   
   while (*str)    {        
       // equivalent to: hash = 65599*hash + (*str++);        hash = (*str++) + (hash << 6) + (hash << 16) - hash;    }    
   return (hash & 0x7FFFFFFF);
}

// RS Hash Function
unsigned int RSHash(char *str)
{    unsigned int b = 378551;    unsigned int a = 63689;    unsigned int hash = 0;    

   while (*str)    {        hash = hash * a + (*str++);        a *= b;    }    
   return (hash & 0x7FFFFFFF);
}

// JS Hash Function
unsigned int JSHash(char *str)
{    unsigned int hash = 1315423911;    

   while (*str)    {        hash ^= ((hash << 5) + (*str++) + (hash >> 2));    }    
   return (hash & 0x7FFFFFFF);
}
// ELF Hash Function
unsigned int ELFHash(char *str)
{    unsigned int hash = 0;    unsigned int x = 0;  
 
   while (*str)    {        hash = (hash << 4) + (*str++);        
       if ((x = hash & 0xF0000000L) != 0)        {            hash ^= (x >> 24);            hash &= ~x;        }    }    
   return (hash & 0x7FFFFFFF);
}

// DJB Hash Function

unsigned int DJBHash(char *str)
{    unsigned int hash = 5381;
   
   while (*str)    {        hash += (hash << 5) + (*str++);    }    
   return (hash & 0x7FFFFFFF);
}


推荐阅读:





专注服务器后台技术栈知识总结分享

欢迎关注交流共同进步

码农有道 coding


码农有道,为您提供通俗易懂的技术文章,让技术变的更简单!

以上是关于数据结构与算法各种字符串Hash函数比较的主要内容,如果未能解决你的问题,请参考以下文章

hash算法搜索获得api函数地址的实现

哈希表与哈希(Hash)算法

一致性hash算法,采用哪种算法实现比较好,比如MD5,CRC32,或者其它

转载关于Hash

ORA_HASH函数使用的算法是什么?

PHP的Hash信息摘要扩展框架