高薪程序员&面试题精讲系列43之HashMap扩容机制的底层实现原理,HashMap扩容后是如何进行rehash操作的?

Posted 一一哥Sun

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了高薪程序员&面试题精讲系列43之HashMap扩容机制的底层实现原理,HashMap扩容后是如何进行rehash操作的?相关的知识,希望对你有一定的参考价值。

一. 面试题及剖析

1. 今日面试题

请说一下HashMap及其底层实现原理

HashMap中是如何计算key的hash值的?

HashMap是如何进行扩容的?

说说HashMap的扩容机制原理

HashMap扩容后是如何重新进行hash计算的?

......

2. 题目剖析

在前4篇文章中,壹哥 给大家介绍了HashMap的基本特点、底层数据结构、HashMap中的重要属性,分析了HashMap的默认初始容量、负载因子,还有HashMap是如何保证其容量必须是2的N次方的,以及HashMap的put()方法执行流程。但在HashMap中,其底层内容非常的复杂,所以接下来在今天的文章中,壹哥 会继续给大家剖析HashMap的底层源码,敬请关注哦。

前4篇文章地址如下:

高薪程序员&面试题精讲系列39之说说HashMap的特点及其底层数据结构

高薪程序员&面试题精讲系列40之HashMap默认初始容量、最大容量、负载因子是多少?链表转红黑树阈值是多少?HashMap什么时候进行扩容?

高薪程序员&面试题精讲系列41之HashMap的容量为什么必须是2的N次方?说说HashMap添加数据的流程吧

高薪程序员&面试题精讲系列42之HashMap中如果出现冲突怎么解决?如何计算key的hash值、如何进行数组索引定位?
 

二. HashMap的扩容机制(重点)

本节相关面试题:

HashMap的扩容机制是怎么样的?

在HashMap的众多面试题中,有一个题目始终无法被绕过去,那就是HashMap的扩容机制。

1. 扩容机制简介

所谓的扩容(resize)机制,就是重新计算扩大数组的容量。我们一直向HashMap数组中添加新元素,当HashMap内部的数组无法装载更多的元素时,HashMap就需要扩大数组原先的容量了,以便能装入更多的元素。HashMap会遵循2倍扩容的原则,每次扩容之后数组的大小都是扩容前的2倍。

2. 扩容触发时机

那HashMap什么时候会进行扩容呢?壹哥 在这里给大家总结一下JDK 8中的HashMap,会在什么时候触发resize()扩容方法,有以下几种情况会触发扩容机制:

①. 当HashMap中使用的位桶数量,达到 总容量*负载因子 的时候会触发扩容;

②. 当某个位桶中的链表长度达到8,即将进行链表转红黑树时,会检查总位桶的数量是否小于64,如果总数量小于64也会进行扩容;

③. 当创建一个HashMap对象之后,第一次往HashMap里面进行put操作时,也会先进行扩容;

④. 另外在HashMap的put方法中,当HashMap的size(实际键值对个数)达到 threshold(阈值)时,也会触发扩容操作。

3. resize()扩容方法源码

了解了HashMap的扩容时机之后,我们来看看这个扩容操作具体是怎么实现的,源码如下:

    final Node<K,V>[] resize() 
        //扩容前的Node数组,先保存 table 副本,接下来 copy 到新数组用
        Node<K,V>[] oldTab = table;
        //当前 table 的容量,是 length 而不是 size
        int oldCap = (oldTab == null) ? 0 : oldTab.length;
        //当前桶的大小
        int oldThr = threshold;
        int newCap, newThr = 0;
        // 计算新的容量值和下一次要扩展的容量
        if (oldCap > 0) 
        //如果当前容量大于 0,也就是非第一次初始化的情况(扩容场景下)
            if (oldCap >= MAXIMUM_CAPACITY) 
            // 当超过最大值,则直接使用最大值作为扩容最大限度,以后就不再扩充了
                threshold = Integer.MAX_VALUE;
                return oldTab;
            
            // 没超过最大值,就扩充为原来的2倍
            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                     oldCap >= DEFAULT_INITIAL_CAPACITY)
                newThr = oldThr << 1; // double threshold
        
        else if (oldThr > 0) // initial capacity was placed in threshold
            newCap = oldThr;
        else                // zero initial threshold signifies using defaults
            newCap = DEFAULT_INITIAL_CAPACITY;
            newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
        
        // 计算新的resize上限
        if (newThr == 0) 
            float ft = (float)newCap * loadFactor;
            newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                      (int)ft : Integer.MAX_VALUE);
        
        threshold = newThr;
        
        // 创建新的扩容后数组,然后将旧的元素复制过去
        @SuppressWarnings("rawtypes","unchecked")
        Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
        table = newTab;
        if (oldTab != null) 
            // 把每个bucket都移动到新的buckets中
            for (int j = 0; j < oldCap; ++j) 
                Node<K,V> e;
                //如果位置上没有元素,直接为null
                if ((e = oldTab[j]) != null) 
                    oldTab[j] = null;
                    //如果只有一个元素,新的hash计算后放入新的数组中
                    if (e.next == null)
                        newTab[e.hash & (newCap - 1)] = e;
                    //如果是树状结构,使用红黑树保存
                    else if (e instanceof TreeNode)
                        ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                    //如果是链表形式
                    else  // preserve order
                        Node<K,V> loHead = null, loTail = null;
                        Node<K,V> hiHead = null, hiTail = null;
                        Node<K,V> next;
                        do 
                            next = e.next;
                            //hash碰撞后高位为0,放入低Hash值的链表中
                            if ((e.hash & oldCap) == 0) 
                                if (loTail == null)
                                    loHead = e;
                                else
                                    loTail.next = e;
                                loTail = e;
                            
                            //hash碰撞后高位为1,放入高Hash值的链表中
                            else 
                                if (hiTail == null)
                                    hiHead = e;
                                else
                                    hiTail.next = e;
                                hiTail = e;
                            
                         while ((e = next) != null);
                        // 低hash值的链表放入数组的原始位置
                        if (loTail != null) 
                            loTail.next = null;
                            newTab[j] = loHead;
                        
                        // 高hash值的链表放入数组的原始位置 + 原始容量
                        if (hiTail != null) 
                            hiTail.next = null;
                            newTab[j + oldCap] = hiHead;
                        
                    
                
            
        
        
        return newTab;

在这段源码中,壹哥 把核心代码都做了中文注释,大家可以参考着阅读理解。

4. HashMap扩容流程

上面的resize源码看起来挺让人头疼的,所以我们可以对其进行简单梳理,归纳如下图所示,大家可以结合上面的源码和下图理解resize扩容过程。

5. 扩容机制原理(重点)

对HashMap的扩容过程有了基本的了解之后,我们再来看看扩容机制的底层实现原理。

我们知道,HashMap存储结构的主体是一个table数组,但Java中没有真正的动态数组。也就是说,数组初始化的时候是多大,那它就一直是多大。那扩容是怎么实现的呢?答案就是HashMap会创建一个新的更大的数组,将旧数组中的数据拷贝过去,用这个新数组代替已有的旧数组。这就好比一开始我们用一个小桶装水,后来想要装更多的水,就得换一个更大的水桶,就是基于这样的思路。

HashMap的扩容机制实现的很巧妙,可以用最小的性能消耗来完成扩容工作,但其内部在进行数据拷贝的时候需要考虑如下几种情况:

①. 如果节点的 next属性 为null,则说明这是一个最正常的节点,不是桶内链表,也不是红黑树,这样的节点可以直接计算索引位置,然后插入。

②. 如果是一颗红黑树,会使用split方法进行处理,原理就是将红黑树拆分成两个TreeNode链表,然后判断每个链表的长度是否<=6,如果是,就将TreeNode转换成桶内链表,否则再转换成红黑树。

③. 如果是桶内链表,则将链表拷贝到新数组中,保证链表的顺序不变。

三. 扩容后的rehash操作

1. rehash操作简介

HashMap在数组扩容后,还需要进行一次新的rehash操作,以此来重新确定元素的存放位置。在rehash之后,元素的存放位置要么是在原位置,要么是在原位置的基础上 向下移动 之前容量个数 的位置。比如,上次容量是16,下次扩容后容量变成了16+16=32。如果一个元素原先在下标为7的位置上,那么扩容后,该元素要么还在7的位置上,要么就在7+16的位置上。

2. rehash实现过程(重点)

有的小伙伴可能会问,为什么要这样呢?下面 壹哥 来解释一下Java 8的扩容机制是怎么做到这一点的。

2.1 扩容之前的hash过程

假设扩容前的数据结构如下图所示:

此时我们有一个HashMap,在数组索引为5的位置上产生了一个链表,依次存储着2个key,分别为7、5。

假设此时HashMap的容量是默认的16,我们把容量设置为n,即n=16,key1、key2分别表示7、5这两个key,hash1、hash2分别是key1、key2对应的hash值。

那么此时在扩容之前,n-1与hash1进行与运算,n-1与hash2进行与运算的结果如下图所示:

经过与运算,我们会发现,在HashMap容量为16时,key1与key2与运算的结果相同,最终的结果都是在5这个位置上,运算过程如下:

n-1 也就是二进制的 0000 1111 = 1+2+4+8 = 15

key1 哈希值的最后 8 位为 0001 0101;

key2 哈希值的最后 8 位为0000 0101(和 key1 不同);

与运算后发生了哈希冲突,索引都在 0000 0101 =5 位置上。

2.2 扩容之后的hash过程

接下来我们将HashMap进行2倍扩容,那么此时HashMap的容量变成32,即n=32,接下来继续把n-1与hash1进行与运算,n-1与hash2进行与运算。

我们会发现,此时计算的结果,key1与运算的结果是21,key2与运算的结果依然是5,运算过程如下:

n-1 也就是二进制的 0001 1111 = 1+2+4+8+16 = 31,扩容前是 0000 1111 = 15;

key1 哈希值的低位为 0001 0101;

key2 哈希值的低位为 0000 0101(和 key1 不同);

key1 做与运算后,索引为 0001 0101 = 21。

key2 做与运算后,索引为 0000 0101 = 5。

此时HashMap中存储数据的结构图如下所示:

所以扩容后,key1的索引就变成了 21 (1 0101),也就是 5+16,即 原来的索引+原来的容量我们可以用下图表示:

因此,JDK 8中HashMap扩容时,不需要像JDK 7 那样重新计算hash值,只需要看原来的hash值新增的bit位是1还是0就好了。是0,则表示索引没变,是1,则表示索引变成了 “原索引+oldCap”。我们可以参照下图中,容量16扩充为32的resize示意图:

对于hash值的高位是否为1,只需要和扩容后的长度 做 与运算 就可以知道了因为扩容后的长度是2的n次方,所以高位必为1,低位必为0如10000这种形式,源码中是通过 e.hash & oldCap 来实现这个逻辑的。

这个设计非常的巧妙,既省去了重新计算hash值的时间,同时由于新增的1 bit是0 还是1可以认为是随机的,因此resize的过程中,也把之前出现冲突的节点均匀地分散到了新的位桶中,这一块就是JDK 8中新增的优化点。

另外还有一点需要我们注意,JDK 7中进行rehash的时候,旧链表迁移到新链表的时候,如果新链表所在的数组索引位置相同,则链表元素会倒置,但是JDK 8中不会出现倒置现象。

四. 结语

好了,到此为止,壹哥 就带各位把HashMap的扩容机制、rehash的原理 复习完毕,可以说这是目前为止最难搞、也最复杂的一个知识点了,不知道你有么有看明白呢?若有收获,请给壹哥点个赞吧。

以上是关于高薪程序员&面试题精讲系列43之HashMap扩容机制的底层实现原理,HashMap扩容后是如何进行rehash操作的?的主要内容,如果未能解决你的问题,请参考以下文章

高薪程序员&面试题精讲系列18之for和foreach的区别原理,哪个效率更高?

高薪程序员&面试题精讲系列22之说说Java的IO流,常用哪些IO流?

高薪程序员&面试题精讲系列41之HashMap的容量为什么必须是2的N次方?说说HashMap添加数据的流程吧

高薪程序员&面试题精讲系列24之你熟悉反射吗?

java基础&amp;&amp;高薪面试

女朋友要去BAT大厂面试,我找测试大牛给她“精讲”了这些面试必背题,刚面试完到家就按捺不住了···