HashMap底层源码解析下(超详细图解)
Posted 温文艾尔
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了HashMap底层源码解析下(超详细图解)相关的知识,希望对你有一定的参考价值。
前情回顾
HashMap底层源码解析上
文章目录
前言
HashMap成员方法
put(K key, V value)
put方法是比较复杂的,实现步骤大致如下
-
先通过hash值计算出key映射到哪个桶
-
如果桶上没有碰撞冲突,则直接插入
-
如果出现碰撞冲突了,则需要处理冲突
-
如果该桶使用红黑树处理冲突,则调用红黑树的方法插入数据
-
否则采用传统的链式方式插入,如果链的长度达到临界值,将链转变成红黑树
-
-
如果桶中存在重复的键,则为该键替换新值value
-
如果size大于阈值threshold,则进行扩容
具体的方法如下
public V put(K key, V value)
//根据key计算其hash值
return putVal(hash(key), key, value, false, true);
static final int hash(Object key)
int h;
//key可以为null,如果为null,hash值就为0,将其放在数组的第一个位置上,和hashTable不一样,hashTable中key不允许为null
return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
我们可以看到在putVal()方法中key在这里执行了一下hash()方法,来看一下hash()方法是如何实现的
static final int hash(Object key)
int h;
/*
1)如果key等于null
可以看到key等于null的时候也是有哈希值的,此时为0,如果进行寻址
会找到数组的第一个位置
2)如果key不等于null
首先计算出key的hashCode赋值给h,然后与h的无符号后移16位的二进制数进行按位异或
得到最后的hash值
*/
return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
从上面可以得知HashMap是支持key为空的,而HashTable是直接用key来获取HashCode,如果key为空则会抛空指针异常
- 其实上面就已经解释了为什么HashMap的长度为什么要是2的幂,因为HashMap使用的方法很巧妙,他通过hash&(table.length-1)来获得该对象的保存位,前面说过HashMap的底层数组的长度总是2的n次方,这是HashMap在速度上的优化。当length总是2的n次方时,hash&(length-1)运算等价于对length取模,也就是hash%length,但是&比%具有更高的效率,比如n%32=n&(32-1)
解读上述hash方法:
我们先研究下key的哈希值是如何计算出来的,key的哈希值是通过上述方法计算出来的
这个哈希方法首先计算出key的hashCode赋值给h,然后与h无符号右移16位后的二进制数进行按位异或得到最后的hash值
在putVal函数中使用到了上述hash函数计算的hash值
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict)
。。。。。。。。。。
//p为存储空间的索引
if ((p = tab[i = (n - 1) & hash]) == null)
。。。。。。。。。。
hash值计算过程如下
说明:
- key.hashCode():返回散列值就是hashCode,假设是随便生成的一个值
- n表示数组初始化的长度为16
- &(按位与运算):运算规则:相同的二进制数位上,都是1的时候结果为1,否则为0
- ^(按位异或运算):运算规则:相同的二进制数位上,数字相同,结果为0,不同为1
总流程:
简单来说就是:
- 高16bit不变,低16bit和高16bit做了一个异或(得到的hashcode转化为32位二进制,前16位和后16位低16bit和高16bit做了一个异或)
问题,为什么要让高16位也参与运算呢
如果当n即数组长度很小,假设是16的话,那么n-1为1111,这样的值和hashCode()直接做按位与操作, 实际上只使用了hash值的后4位,如果当哈希值的高位变化很大,低位变化很小,这样就很容易造成哈希冲突了,所以这里把高低位都利用起来,从而解决了这个问题
我们还是举个例子吧
如果不对h进行按位异或操作,而直接将hashCode值与n-1进行与操作,就会出现这样的情况,我们将数据存放在索引为10的空间中
当我们得到一个高位变化比较大的hashCode时,它的高位就无法参与&运算,比如:我们发现他得到的索引值依然为10,这样就会引起hash冲突
故:如果hashCode值的高位变化很大,而低位变化很小或没有变化,那么直接和数组长度进行&运算。会很容易造成计算的结果是一样的,导致hash冲突,而>>>16便是使高混乱度地区与低混乱度地区做一个中和,提高低位的随机性,减少哈希冲突
这里博客中有位老哥总结的很好:
右移16位,自己的高半区和低半区异或,就是为了混合原始哈希码的高位和低位,以此来加大低位随机性。
现在我们回到putVal方法,看看它具体做了什么
主要参数:
- hash key的hash值
- key原始key
- value要存放的值
- onlyIfAvsent如果true代表不更改现有的值
- evict如果为false表示table为创建状态
putVal()方法源代码以及逐行解释如下所示:
/**
* Implements Map.put and related methods
*
* @param hash hash for key
* @param key the key
* @param value the value to put
* @param onlyIfAbsent if true, don't change existing value
* @param evict if false, the table is in creation mode.
* @return previous value, or null if none
*/
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict)
//tab:引用当前hashmap的散列表
//p:表示当前散列表的元素
//n:表示散列表数组的长度
//i:表示路由寻址结果
Node<K,V>[] tab; Node<K,V> p; int n, i;
//延迟初始化逻辑,在这里初始化table,第一次调用putVal方法会创建
//hashMap中最耗费内存的散列表,如果只是new HashMap()并不会初始化散列表
if ((tab = table) == null || (n = tab.length) == 0)
n = (tab = resize()).length;
//如果当前桶没有哈希冲突,则直接添加
if ((p = tab[i = (n - 1) & hash]) == null)
tab[i] = newNode(hash, key, value, null);
//有哈希冲突,则对链表或红黑树情况分别进行判断
else
Node<K,V> e; K k;
//p.hash == hash &&((k = p.key) == key 将p.key赋给k,并判断与当前节点的hash值是否相等
//与当前节点地址值是否相等,相等则直接覆盖原节点
//key != null && key.equals(k),如果key不是空,并且内容相等(一般情况下内容相等默认hash值也相等)
//则直接覆盖原节点
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
e = p;
//判断是否是树节点
else if (p instanceof TreeNode)
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
else
//是链表,并且头节点和我们要插入的节点不一致
//for循环:遍历每个节点,确定要插入的位置
for (int binCount = 0; ; ++binCount)
//如果当前节点的下一个节点为null,代表已经到了最后一个节点位置
if ((e = p.next) == null)
//将元素作为新节点插入到链表末尾
p.next = newNode(hash, key, value, null);
//判断当前链表长度是否达到树化标准,如果达到标准还会在
//方法内继续判断,数组长度cap是否超过64,没有则扩容而非树化
//因为先++binCount所以走到第8个节点时binCount为7,加上头节点为8,
//而要添加的节点位于第8个节点之后,所以触发树化操作
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
treeifyBin(tab, hash);
break;
//判断当前节点的key是否和目标节点一致,一致则覆盖
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e;
//e!=null,执行替换操作
if (e != null) // existing mapping for key
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
//将新value值替换老的value值
e.value = value;
afterNodeAccess(e);
return oldValue;
//HashMap的修改次数+1
++modCount;
//刚刚放进一个元素,所以size++
// size++之后如果数组容量大于规定阈值,则直接进行扩容
if (++size > threshold)
resize();
afterNodeInsertion(evict);
return null;
当节点数量大于8个时,会调用treeifBin方法,我们看一下源码(链表转换成红黑树)
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
treeifyBin(tab, hash);
break;
整体代码如下:
将满足条件的链表变成红黑树
/**
* Replaces all linked nodes in bin at index for given hash unless
* table is too small, in which case resizes instead.
*/
//将原来链表中的节点替换成树节点
final void treeifyBin(Node<K,V>[] tab, int hash)
int n, index; Node<K,V> e;
//tab == null:判断数组是否为空
//n = tab.length将数组长度赋给变量n
//(n = tab.length) < MIN_TREEIFY_CAPACITY判断数组长度是否小于64
//如果小于则进行扩容,否则进行红黑树转换
if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
resize();
//n=64
//e = tab[index = (n - 1) & hash]拿到当前桶中的元素,判断是否为空
else if ((e = tab[index = (n - 1) & hash]) != null)
//hd表示红黑树的头节点,tl表示红黑树的尾节点
TreeNode<K,V> hd = null, tl = null;
do
//创建一个标准树节点
/*
TreeNode<K,V> replacementTreeNode(Node<K,V> p, Node<K,V> next)
return new TreeNode<>(p.hash, p.key, p.value, next);
*/
TreeNode<K,V> p = replacementTreeNode(e, null);
//如果红黑树的尾节点为null,则p节点为红黑树的头节点
if (tl == null)
hd = p;
else
//有了头节点之后走这一步
//当前p的上一个节点指向尾节点
//tl的下一个节点指向p
p.prev = tl;
tl.next = p;
//在只有一个节点时,头节点和尾节点都为p
tl = p;
//e向后移动
while ((e = e.next) != null);
//把转换的以head为头节点的红黑树放入桶中
if ((tab[index] = hd) != null)
//红黑树为了保持平衡进行的旋转
hd.treeify(tab);
resize扩容方法
扩容机制
想要了解HashMap的扩容机制你要有这两个问题
-
什么时候才需要扩容
-
HashMap的扩容是什么
1.什么时候才需要扩容
当HashMap中的元素个数超过数组大小(数组长度)*loadFactor(负载因子)时,就会进行数组扩容
loadFactor的默认值(DEFAULT_LOAD_FACTOR)是0.75,这是一个折中的取值,也就是说,默认情况下,数组大小为16,那么当HashMap中的元素个数超过16x0.75=12(这个值就是阈值或者边界值threshold值)的时候,就把数组的大小扩展为2x16=32,即扩大一倍,然后重新计算每个元素在数组中的位置,这是一个非常耗性能的操作,所以如果我们已经预知HashMap中元素的个数,这能很好的提高HashMap的性能
补充:
当HashMap中的一个链表的对象个数如果达到了8个,此时如果数组长度没有达到64,那么HashMap会先扩容解决,如果已经达到了64,那么这个链表会变成红黑树。节点类型有Node变成TreeNode类型。当然,如果映射关系被移除后,下次执行resize方法时判断树的节点个数低于6,也会再把树转换成链表
故:
- HashMap中的元素个数超过数组大小(数组长度)*loadFactor(负载因子)时,就会进行数组扩容
- 某个链表的长度大于8,且数组长度小于64,会进行扩容
2.HashMap的扩容是什么
进行扩容,会伴随着一次重新hash分配,并且会遍历hash表中所有的元素,是非常耗时的,再编写程序中,要尽量避免resize
HashMap在进行扩容时,使用的rehash方式非常巧妙,因为每次扩容都是翻倍,与原来计算的(n-1)&hash的结果相比,只是多了一个bit位,所以节点要么就在原来的位置上,要么就被分配到原位置+旧容量这个位置
怎么理解呢?例如我们从16扩展为32时,具体的变化如下所示:
我们发现当数组长度从16扩容至32,只是多了一个bit位的运算,我们只需在意多的bit位是1还是0,如果为0,则索引不变,如果为1,则多了旧容量的长度,从原索引值5变成了索引值为21,21=16+5,得出新的索引值=原位置+旧容量
扩容之后的索引位置要么是原来索引,要么是原来索引+旧数组容量
因此我们在扩容HashMap的时候,不需要重新计算hash,只需要来看看原来的hash值新增的那个bit是1还是0就可以了,是0的话索引不变,是1的话索引变成原位置+旧容量,可以看看下图为16扩充为32的resize示意图
正式因为这样巧妙地rehash方式,既省去了重新计算hash值的时间,而且同时,由于新增的1bit是0还是1是随机的,
在resize的过程汇总保证了rehash之后每个桶上的节点数一定小于等于原来桶上的节点数,保证了rehash之后不会出
现更严重的hash冲突,均匀的把之前的冲突的节点分散到新的桶中了
resize源码
final Node<K,V>[] resize()
//oldTab:引用扩容前的哈希表
Node<K,V>[] oldTab = table;
//oldCap:表示扩容前的table数组的长度
int oldCap = (oldTab == null) ? 0 : oldTab.length;
//获得旧哈希表的扩容阈值
int oldThr = threshold;
//newCap:扩容之后table数组大小
//newThr:扩容之后下次触发扩容的条件
int newCap, newThr = 0;
//条件成立说明hashMap中的散列表已经初始化过了,是一次正常扩容
if (oldCap > 0)
//判断旧的容量是否大于等于最大容量,如果是,则无法扩容,并且设置扩容条件为int最大值,
//这种情况属于非常少数的情况
if (oldCap >= MAXIMUM_CAPACITY)
threshold = Integer.MAX_VALUE;
return oldTab;
//设置newCap新容量为oldCap旧容量的二倍(<<1),并且<最大容量,而且>=16,则新阈值等于旧阈值的两倍
else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
oldCap >= DEFAULT_INITIAL_CAPACITY)
newThr = oldThr << 1; // double threshold
//如果oldCap=0并且边界值大于0,说明散列表是null,但此时oldThr>0
//说明此时hashMap的创建是通过指定的构造方法创建的,新容量直接等于阈值
//1.new HashMap(intitCap,loadFactor)
//2.new HashMap(initCap)
//3.new HashMap(map)
else if (oldThr > 0) // initial capacity was placed in threshold
newCap = oldThr;
//这种情况下oldThr=0;oldCap=0,说明没经过初始化,创建hashMap
//的时候是通过new HashMap()的方式创建的
else // zero initial threshold signifies using defaults
newCap = DEFAULT_INITIAL_CAPACITY;
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
//newThr为0时,通过newCap和loadFactor计算出一个newThr
if (newThr == 0)
//容量*0.75
float ft = (float)newCap * loadFactor;
newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
(int)ft : Integer.MAX_VALUE);
threshold = newThr;
@SuppressWarnings("rawtypes","unchecked")
//根据上面计算出的结果创建一个更长更大的数组
Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
//将table指向新创建的数组
table = newTab;
//本次扩容之前table不为null
if (oldTab != null)
//对数组中的元素进行遍历
for (int j = 0; j < oldCap; ++j)
//设置e为当前node节点
Node<K,V> e;
//当前桶位数据不为空,但不能知道里面是单个元素,还是链表或红黑树,
//e = oldTab[j],先用e记录下当前元素
if ((e = oldTab[j]) != null)
//将老数组j桶位置为空,方便回收
oldTab[j] = null;
//如果e节点不存在下一个节点,说明e是单个元素,则直接放置在新数组的桶位
if (e.next == null)
newTab[e.hash & (newCap - 1)] = e;
//如果e是树节点,证明该节点处于红黑树中
else if (e instanceof TreeNode)
((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
//e为链表节点,则对链表进行遍历
else // preserve order
//低位链表:存放在扩容之后的数组的下标位置,与当前数组下标位置一致
//loHead:低位链表头节点
//loTail低位链表尾节点
Node<K,V> loHead = null, loTail = null;
//高位链表,存放扩容之后的数组的下标位置,=原索引+扩容之前数组容量
//hiHead:高位链表头节点
//hiTail:高位链表尾节点
Node<K,V> hiHead = null, hiTail = null;
Node<K,V> next;
do
next = e.next;
//oldCap为16:10000,与e.hsah做&运算可以得到高位为1还是0
//高位为0,放在低位链表
if ((e.hash & oldCap) == 0)
if (loTail == null)
//loHead指向e
loHead = e;
else
loTail.next = e;
loTail = e;
//高位为1,放在高位链表
else
if (hiTail == null)
hiHead = e;
else
hiTail.next = e;
hiTail = e;
while ((e = next) != null);
//低位链表已成,将头节点loHead指向在原位
if (loTail != null)
loTail.next = null;
newTab[j] = loHead;
//高位链表已成,将头节点指向新索引
if (hiTail != null)
hiTail.next = null;
newTab[j + oldCap] = hiHead;
以上是关于HashMap底层源码解析下(超详细图解)的主要内容,如果未能解决你的问题,请参考以下文章
创建数据库中,超详细常用的MySQL命令(含解析图解与全部代码)