hashCode

Posted 2021-02-13 javabc

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了hashCode相关的知识，希望对你有一定的参考价值。

1.背景

某天不经意间调用到String 的hashcode，随即点进去看下源码。发现里面是如下实现的

源码：

public int hashCode() {
int h = hash;
if (h == 0 && value.length > 0) {
char val[] = value;
for (int i = 0; i < value.length; i++) {
h = 31 * h + val[i];
}
hash = h;
}
return h;
}

看到有个数字31引起我的注意，为什么要用数字31呢，不能是其他吗，这里面是有什么规则吗？于是就有了后续的问题与答案了。当然这里看的是string重写的hashCode方法，object对象的hashCode方法是本地方法native方法，该方法返回哈希码确定该对象在哈希表中的索引位置。

2.查找答案的历程

我先百度直接搜索问题，发现有很多类似一样的科普文章长篇解释了，但是每个点都没有详细说明。百度科普链接如下：https://www.cnblogs.com/nullllun/p/8350178.html

等我看完上面那篇文章后，我自己总结了几个答案：

1. 31是奇数，那为什么不能用偶数

首先因为偶数乘任何一个数，都是偶数，会造成偶数区域压力大，奇数区域基本为空，冲突比较大。其次因为偶数会导致乘法溢出，信息丢失。

2. 31是质数，那为什么不能用非质数呢

因为31质数，且只能被它本身和1整除。31是个不大不小的质数。而且还要选择与16,32,64,128相差一的质数，这样才能替换为移位与加减法。

3. 31可以被JVM优化

31*i = (i < <5)-i => i*(2^5-1) = i*2^5 - i，就这样被编译器优化为左移五位后减 i

当时说到这里的时候，我展开了说了下两个比较像的问题，分别如下：

为什么hashmap容量建议是2的幂次方，当然是为了解决冲突，原因是这样的，hashmap有个方法indexFor 源码如下

/**
* 返回数组下标
*/
static int indexFor(int h, int length) {
return h & (length-1);
}

因为 2? =》1和n个0，减一之后就是0和n个1，例如2? =》10000 ，而2?-1 = 01111，这样与运算都在低位，让低位都参与运算。这样会保证低位全为1，而扩容后只有一位差异，也就是多出了最左位的1，这样在通过 h&(length-1)的时候，只要h对应的最左边的那一个差异位为0，就能保证得到的新的数组索引和老数组索引一致(大大减少了之前已经散列良好的老数组的数据位置重新调换)。还有，数组长度保持2的次幂，length-1的低位都为1，会使得获得的数组索引index更加均匀，上面的&运算，高位是不会对结果产生影响的（hash函数采用各种位运算可能也是为了使得低位更加散列），我们只关注低位bit，如果低位全部为1，那么对于h低位部分来说，任何一位的变化都会对结果产生影响，如果不是2的次幂，也就是低位不是全为1此时，h的低位部分不再具有唯一性了，哈希冲突的几率会变的更大，同时，index对应的这个bit位无论如何不会等于1了，而对应的那些数组位置也就被白白浪费了。

为什么hashmap的hash（）采用右移16位，然后异或（就是高16位异或低16位）

key的hash值高16位不变，低16位与高16位异或作为key的最终hash值。（h >>> 16，表示无符号右移16位，高位补0，任何数跟0异或都是其本身，因此key的hash值高16位不变。设计者考虑到现在的hashCode分布的已经很不错了，而且当发生较大碰撞时也用树形存储降低了冲突。仅仅异或一下，既减少了系统的开销，也不会造成的因为高位没有参与下标的计算(table长度比较小时)，从而引起的碰撞。

技术图片

4. 31的哈希值正太分布均匀

按照前辈们实验得出的结论，31的哈希分布的确均匀。就如一开始给的链接那里有证明，考虑到大家可能不会去点击那个链接，所以我转载一部分出来，如下。

接下来，让我们对照上面的分区表，对数字2、3、17、31、101的散点曲线图进行简单的分析。先从数字2开始，数字2对于的散点曲线图如下：

技术图片

上面的图还是很一幕了然的，乘子2算出的哈希值几乎全部落在第32分区，也就是 [0, 67108864)数值区间内，落在其他区间内的哈希值数量几乎可以忽略不计。这也就不难解释为什么数字2作为乘子时，算出哈希值的冲突率如此之高的原因了。所以这样的哈希算法要它有何用啊，拖出去斩了吧。接下来看看数字3作为乘子时的表现：

技术图片