什么是Hash函数

Posted 2023-03-20

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了什么是Hash函数相关的知识，希望对你有一定的参考价值。

什么是Hash函数，以及Hash函数的种类、应用。

Hash函数是把任意长度的输入（又叫做预映射pre-image）通过散列算法变换成固定长度的输出，该输出就是散列值。

这种转换是一种压缩映射，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来确定唯一的输入值。

Hash函数可以将一个数据转换为一个标志，这个标志和源数据的每一个字节都有十分紧密的关系。Hash算法还具有一个特点，就是很难找到逆向规律。

扩展资料：

常用Hash函数有：

1、直接寻址法。取关键字或关键字的某个线性函数值为散列地址。即H(key)=key或H(key) = a·key + b，其中a和b为常数（这种散列函数叫做自身函数）

2、数字分析法。分析一组数据，比如一组员工的出生年月日，这时我们发现出生年月日的前几位数字大体相同。

3、平方取中法。取关键字平方后的中间几位作为散列地址。

4、折叠法。将关键字分割成位数相同的几部分，最后一部分位数可以不同，然后取这几部分的叠加和（去除进位）作为散列地址。

参考资料来源：百度百科-hash函数

参考技术A hash函数　　Hash，一般翻译做"散列"，也有直接音译为"哈希"的，就是把任意长度的输入（又叫做预映射， pre-image），通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，而不可能从散列值来唯一的确定输入值。
　　简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
　　HASH主要用于信息安全领域中加密算法，他把一些不同长度的信息转化成杂乱的128位的编码里,叫做HASH值. 也可以说，hash就是找到一种数据内容和数据存放地址之间的映射关系
　　了解了hash基本定义，就不能不提到一些著名的hash算法，MD5 和 SHA1 可以说是目前应用最广泛的Hash算法，而它们都是以 MD4 为基础设计的。那么他们都是什么意思呢？
　　这里简单说一下：
　　1) MD4
　　MD4(RFC 1320)是 MIT 的 Ronald L. Rivest 在 1990 年设计的，MD 是 Message Digest 的缩写。它适用在32位字长的处理器上用高速软件实现--它是基于 32 位操作数的位操作来实现的。
　　2) MD5
　　MD5(RFC 1321)是 Rivest 于1991年对MD4的改进版本。它对输入仍以512位分组，其输出是4个32位字的级联，与 MD4 相同。MD5比MD4来得复杂，并且速度较之要慢一点，但更安全，在抗分析和抗差分方面表现更好
　　3) SHA1 及其他
　　SHA1是由NIST NSA设计为同DSA一起使用的，它对长度小于264的输入，产生长度为160bit的散列值，因此抗穷举(brute-force)性更好。SHA-1 设计时基于和MD4相同原理,并且模仿了该算法。
　　那么这些Hash算法到底有什么用呢？
　　Hash算法在信息安全方面的应用主要体现在以下的3个方面：
　　1) 文件校验
　　我们比较熟悉的校验算法有奇偶校验和CRC校验，这2种校验并没有抗数据篡改的能力，它们一定程度上能检测并纠正数据传输中的信道误码，但却不能防止对数据的恶意破坏。
　　MD5 Hash算法的"数字指纹"特性，使它成为目前应用最广泛的一种文件完整性校验和(Checksum)算法，不少Unix系统有提供计算md5 checksum的命令。
　　2) 数字签名
　　Hash 算法也是现代密码体系中的一个重要组成部分。由于非对称算法的运算速度较慢，所以在数字签名协议中，单向散列函数扮演了一个重要的角色。对 Hash 值，又称"数字摘要"进行数字签名，在统计上可以认为与对文件本身进行数字签名是等效的。而且这样的协议还有其他的优点。
　　3) 鉴权协议
　　如下的鉴权协议又被称作"挑战--认证模式：在传输信道是可被侦听，但不可被篡改的情况下，这是一种简单而安全的方法。
　　hash函数在程序设计中的实现
　　// 说明：Hash函数（即散列函数）在程序设计中的应用目标 ------ 把一个对象通过某种转换机制对应到一个
　　// size_t类型（即unsigned long）的整型值。
　　// 而应用Hash函数的领域主要是 hash表（应用非常广）、密码等领域。
　　// 实现说明：
　　// （1）、这里使用了函数对象以及泛型技术，使得对所有类型的对象（关键字）都适用。
　　// （2）、常用类型有对应的偏特化，比如string、char*、各种整形等。
　　// （3）、版本可扩展，如果你对某种类型有特殊的需要，可以在后面实现专门化。
　　// （4）、以下实现一般放在头文件中，任何包含它的都可使用hash函数对象。
　　//------------------------------------实现------------------------------------------------
　　#include <string>
　　using std::string;
　　inline size_t hash_str( const char* s )
　　
　　unsigned long res = 0;
　　for ( ; *s; ++s )
　　res = 5 * res + *s;
　　return size_t(res);
　　
　　template <class Key>
　　struct hash
　　
　　size_t operator () ( const Key& k ) const;
　　;
　　// 一般的对象，比如：vector< queue<string> >的对象，需要强制转化
　　template < class Key >
　　size_t hash<Key>::operator () ( const Key& k ) const
　　
　　size_t res = 0;
　　size_t len = sizeof( Key );
　　const char* p = reinterpret_cast<const char*>( &k );
　　while ( len-- )
　　
　　res = (res<<1)^*p++;
　　
　　return res;
　　
　　// 偏特化
　　template<>
　　size_t hash< string >::operator () ( const string& str ) const
　　
　　return hash_str( str.c_str() );
　　
　　typedef char* PChar;
　　template<>
　　size_t hash<PChar>::operator () ( const PChar& s ) const
　　
　　return hash_str(s);
　　
　　typedef const char* PCChar;
　　template<>
　　size_t hash<PCChar>::operator () ( const PCChar& s ) const
　　
　　return hash_str(s);
　　
　　template<> size_t hash<char>::operator () ( const char& x ) const return x;
　　template<> size_t hash<unsigned char>::operator () ( const unsigned char& x ) const return x;
　　template<> size_t hash<signed char>::operator () ( const signed char& x ) const return x;
　　template<> size_t hash<short>::operator () ( const short& x ) const return x;
　　template<> size_t hash<unsigned short>::operator () ( const unsigned short& x ) const return x;
　　template<> size_t hash<int>::operator () ( const int& x ) const return x;
　　template<> size_t hash<unsigned int>::operator () ( const unsigned int& x ) const return x;
　　template<> size_t hash<long>::operator () ( const long& x ) const return x;
　　template<> size_t hash<unsigned long>::operator () ( const unsigned long& x ) const return x;
　　// 使用说明：
　　//
　　// （1）、使用时首先由于是泛型，所以要加上关键字类型。
　　//
　　// （2）、其次要有一个函数对象，可以临时、局部、全局的，只要在作用域就可以。
　　//
　　// （3）、应用函数对象作用于对应类型的对象。
　　//----------------------- hash函数使用举例 -------------------------
　　#include <iostream>
　　#include <vector>
　　#include <string>
　　using namespace std;
　　int main()
　　
　　vector<string> vstr(2);
　　vstr[0] = "sjw";
　　vstr[1] = "suninf";
　　hash<string> strhash; // 局部函数对象
　　cout << " Hash value: " << strhash( vstr[0] ) << endl;
　　cout << " Hash value: " << strhash( vstr[1] ) << endl;
　　cout << " Hash value: " << hash< vector<string> >() ( vstr ) << endl;
　　cout << " Hash value: " << hash<int>() ( 100 ) << endl; // hash<int>() 临时函数对象
　　return 0;
　　参考技术B 　　Hash函数：
　　Hash，一般翻译做"散列"，也有直接音译为"哈希"的，就是把任意长度的输入（又叫做预映射， pre-image），通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，而不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
　　算法用途：
　　HASH主要用于信息安全领域中加密算法，它把一些不同长度的信息转化成杂乱的128位的编码里，叫做HASH值. 也可以说，hash就是找到一种数据内容和数据存放地址之间的映射关系。Hash算法在信息安全方面的应用主要体现在以下的3个方面：
　　1）文件校验
　　我们比较熟悉的校验算法有奇偶校验和CRC校验，这2种校验并没有抗数据篡改的能力，它们一定程度上能检测并纠正数据传输中的信道误码，但却不能防止对数据的恶意破坏。
　　MD5 Hash算法的"数字指纹"特性，使它成为目前应用最广泛的一种文件完整性校验和（Checksum）算法，不少Unix系统有提供计算md5 checksum的命令。
　　2）数字签名
　　Hash 算法也是现代密码体系中的一个重要组成部分。由于非对称算法的运算速度较慢，所以在数字签名协议中，单向散列函数扮演了一个重要的角色。对 Hash 值，又称"数字摘要"进行数字签名，在统计上可以认为与对文件本身进行数字签名是等效的。而且这样的协议还有其他的优点。
　　3）鉴权协议
　　如下的鉴权协议又被称作"挑战--认证模式：在传输信道是可被侦听，但不可被篡改的情况下，这是一种简单而安全的方法。

秒懂Hash算法：什么是Hash

Hash函数

在一般的线性表、树结构中，数据的存储位置是随机的，不像数组可以通过索引能一步查找到目标元素。为了能快速地在没有索引之类的结构中找到目标元素，需要为存储地址和值之间做一种映射关系h(key),这个h就是哈希函数，用公式表示：

h(key)=Addr
h:哈希函数
key:关键字，用来唯一区分对象的

把线性表中每个对象的关键字通过哈希函数h(key)映射到内存单元地址，并把对象存储到该内存单元，这样的线性表存储结构称为哈希表或散列表。

构造哈希函数

构造哈希函数的方法有很多种，下面介绍几种常见的算法。在设置哈希函数时，通常要考虑以下因素：
　　○ 计算函希函数所需的时间
　　○ 关键字的长度
　　○ 哈希表的长度
　　○ 关键字的分布情况
　　○ 记录的查找频率

1. 直接定址法

直接定址法取关键字或关键字的某个线性函数作为哈希地址，即

　　h(key) = key
　　或
　　h(key) = a*key + b

　　其中a,b为常数，调整a与b的值可以使哈希地址取值范围与存储空间范围一致。这种方法简单并且不会发生冲突，适用于关键字分布基本连续的情况，若关键字分布不连续，将造成存储空间的巨大浪费。

2. 数字分析法

　　数字分析法是提取关键字中随机性较好的数字位，将其拼接作为哈希地址，适用于所有关键字已知的情况，并需要对关键字中每位的取值情况进行分析。如下图，经分析c,f,g,h这几位取值较为集中，随机性不好，不适用于哈希函数，而a,e取值分散，可将这两个数字拼接位哈希地址。需要注意，提取多少位数字应该根据哈希表长度来确定。

　　位 h g f e d c b a 提取结果
　　 6 1 3 1 7 6 3 2 12
6 2 3 2 6 8 7 5 25
6 2 3 4 3 6 3 4 44
　　 6 2 7 0 6 6 1 6 　　6
　　　 6 1 7 7 4 6 3 8 　　78
　　 6 1 3 8 1 2 6 1 　　81
　　 6 1 3 9 4 2 2 0 　　90

3. 除留余数法

　　除留余数法采用取模运算，把关键字除以某个不大于哈希表表长的整数得到的余数作为哈希地址。哈希函数形式为：

　　　　h(key) = key % p

　　除留余数法的关键是选好P，使得记录集合中的每个关键字通过该整数转换后映射到哈希表范围内任意地址上的概率相等，从而尽可能减少发生冲突的可能性。
例如，P不要设为2的次幂，如设P=25,则对P的取模相当于截取P的最低5位二进制数，这等于将关键字的所有高位二进制数都忽略了。理论研究表明，P取奇数比偶数效果好，P取不大于哈希表长度的质数效果最好。

507683的二进制 1111011111100100011
　　　　　　 507683%2相当于取低5位二进制数

以上是关于什么是Hash函数的主要内容，如果未能解决你的问题，请参考以下文章