HashMap底层源码解析下(超详细图解)

Posted 温文艾尔

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了HashMap底层源码解析下(超详细图解)相关的知识,希望对你有一定的参考价值。

前情回顾
HashMap底层源码解析上


前言

HashMap成员方法

put(K key, V value)

put方法是比较复杂的,实现步骤大致如下

  1. 先通过hash值计算出key映射到哪个桶

  2. 如果桶上没有碰撞冲突,则直接插入

  3. 如果出现碰撞冲突了,则需要处理冲突

    • 如果该桶使用红黑树处理冲突,则调用红黑树的方法插入数据

    • 否则采用传统的链式方式插入,如果链的长度达到临界值,将链转变成红黑树

  4. 如果桶中存在重复的键,则为该键替换新值value

  5. 如果size大于阈值threshold,则进行扩容

具体的方法如下

    public V put(K key, V value) 
        //根据key计算其hash值
        return putVal(hash(key), key, value, false, true);
    

    static final int hash(Object key) 
        int h;
        //key可以为null,如果为null,hash值就为0,将其放在数组的第一个位置上,和hashTable不一样,hashTable中key不允许为null
        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    

我们可以看到在putVal()方法中key在这里执行了一下hash()方法,来看一下hash()方法是如何实现的

    static final int hash(Object key) 
        int h;
        /*
            1)如果key等于null
                可以看到key等于null的时候也是有哈希值的,此时为0,如果进行寻址
                会找到数组的第一个位置
            2)如果key不等于null
                首先计算出key的hashCode赋值给h,然后与h的无符号后移16位的二进制数进行按位异或
                得到最后的hash值
         */
        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    

从上面可以得知HashMap是支持key为空的,而HashTable是直接用key来获取HashCode,如果key为空则会抛空指针异常

  • 其实上面就已经解释了为什么HashMap的长度为什么要是2的幂,因为HashMap使用的方法很巧妙,他通过hash&(table.length-1)来获得该对象的保存位,前面说过HashMap的底层数组的长度总是2的n次方,这是HashMap在速度上的优化。当length总是2的n次方时,hash&(length-1)运算等价于对length取模,也就是hash%length,但是&比%具有更高的效率,比如n%32=n&(32-1)

解读上述hash方法:

我们先研究下key的哈希值是如何计算出来的,key的哈希值是通过上述方法计算出来的
这个哈希方法首先计算出key的hashCode赋值给h,然后与h无符号右移16位后的二进制数进行按位异或得到最后的hash值

在putVal函数中使用到了上述hash函数计算的hash值

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) 
    。。。。。。。。。。
         //p为存储空间的索引
        if ((p = tab[i = (n - 1) & hash]) == null)
    。。。。。。。。。。

hash值计算过程如下

说明:

  • key.hashCode():返回散列值就是hashCode,假设是随便生成的一个值
  • n表示数组初始化的长度为16
  • &(按位与运算):运算规则:相同的二进制数位上,都是1的时候结果为1,否则为0
  • ^(按位异或运算):运算规则:相同的二进制数位上,数字相同,结果为0,不同为1

总流程:

简单来说就是:

  • 高16bit不变,低16bit和高16bit做了一个异或(得到的hashcode转化为32位二进制,前16位和后16位低16bit和高16bit做了一个异或)

问题,为什么要让高16位也参与运算呢

如果当n即数组长度很小,假设是16的话,那么n-1为1111,这样的值和hashCode()直接做按位与操作, 实际上只使用了hash值的后4位,如果当哈希值的高位变化很大,低位变化很小,这样就很容易造成哈希冲突了,所以这里把高低位都利用起来,从而解决了这个问题

我们还是举个例子吧

如果不对h进行按位异或操作,而直接将hashCode值与n-1进行与操作,就会出现这样的情况,我们将数据存放在索引为10的空间中


当我们得到一个高位变化比较大的hashCode时,它的高位就无法参与&运算,比如:我们发现他得到的索引值依然为10,这样就会引起hash冲突

故:如果hashCode值的高位变化很大,而低位变化很小或没有变化,那么直接和数组长度进行&运算。会很容易造成计算的结果是一样的,导致hash冲突,而>>>16便是使高混乱度地区与低混乱度地区做一个中和,提高低位的随机性,减少哈希冲突

这里博客中有位老哥总结的很好:

右移16位,自己的高半区和低半区异或,就是为了混合原始哈希码的高位和低位,以此来加大低位随机性。

现在我们回到putVal方法,看看它具体做了什么

主要参数:

- hash key的hash值

- key原始key

- value要存放的值

- onlyIfAvsent如果true代表不更改现有的值

- evict如果为false表示table为创建状态

putVal()方法源代码以及逐行解释如下所示:

    /**
     * Implements Map.put and related methods
     *
     * @param hash hash for key
     * @param key the key
     * @param value the value to put
     * @param onlyIfAbsent if true, don't change existing value
     * @param evict if false, the table is in creation mode.
     * @return previous value, or null if none
     */
    final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) 
        //tab:引用当前hashmap的散列表
        //p:表示当前散列表的元素
        //n:表示散列表数组的长度
        //i:表示路由寻址结果
        Node<K,V>[] tab; Node<K,V> p; int n, i;
        //延迟初始化逻辑,在这里初始化table,第一次调用putVal方法会创建
        //hashMap中最耗费内存的散列表,如果只是new HashMap()并不会初始化散列表
        if ((tab = table) == null || (n = tab.length) == 0)
            n = (tab = resize()).length;
        //如果当前桶没有哈希冲突,则直接添加
        if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);
        //有哈希冲突,则对链表或红黑树情况分别进行判断
        else 
            Node<K,V> e; K k;
            //p.hash == hash &&((k = p.key) == key 将p.key赋给k,并判断与当前节点的hash值是否相等
            //与当前节点地址值是否相等,相等则直接覆盖原节点
            //key != null && key.equals(k),如果key不是空,并且内容相等(一般情况下内容相等默认hash值也相等)
            //则直接覆盖原节点
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;
            //判断是否是树节点
            else if (p instanceof TreeNode)
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            else 
                //是链表,并且头节点和我们要插入的节点不一致
                //for循环:遍历每个节点,确定要插入的位置
                for (int binCount = 0; ; ++binCount) 
                    //如果当前节点的下一个节点为null,代表已经到了最后一个节点位置
                    if ((e = p.next) == null) 
                        //将元素作为新节点插入到链表末尾
                        p.next = newNode(hash, key, value, null);
                        //判断当前链表长度是否达到树化标准,如果达到标准还会在
                        //方法内继续判断,数组长度cap是否超过64,没有则扩容而非树化
                        //因为先++binCount所以走到第8个节点时binCount为7,加上头节点为8,
                        //而要添加的节点位于第8个节点之后,所以触发树化操作
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            treeifyBin(tab, hash);
                        break;
                    
                    //判断当前节点的key是否和目标节点一致,一致则覆盖
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    p = e;
                
            
            //e!=null,执行替换操作
            if (e != null)  // existing mapping for key
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    //将新value值替换老的value值
                    e.value = value;
                afterNodeAccess(e);
                return oldValue;
            
        
        //HashMap的修改次数+1
        ++modCount;
        //刚刚放进一个元素,所以size++
        // size++之后如果数组容量大于规定阈值,则直接进行扩容
        if (++size > threshold)
            resize();
        afterNodeInsertion(evict);
        return null;
    

当节点数量大于8个时,会调用treeifBin方法,我们看一下源码(链表转换成红黑树)

                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            treeifyBin(tab, hash);
                        break;

整体代码如下:
将满足条件的链表变成红黑树

    /**
     * Replaces all linked nodes in bin at index for given hash unless
     * table is too small, in which case resizes instead.
     */
    //将原来链表中的节点替换成树节点
    final void treeifyBin(Node<K,V>[] tab, int hash) 
        int n, index; Node<K,V> e;
        //tab == null:判断数组是否为空
        //n = tab.length将数组长度赋给变量n
        //(n = tab.length) < MIN_TREEIFY_CAPACITY判断数组长度是否小于64
        //如果小于则进行扩容,否则进行红黑树转换
        if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
            resize();
        //n=64
        //e = tab[index = (n - 1) & hash]拿到当前桶中的元素,判断是否为空
        else if ((e = tab[index = (n - 1) & hash]) != null) 
            //hd表示红黑树的头节点,tl表示红黑树的尾节点
            TreeNode<K,V> hd = null, tl = null;
            do 
                //创建一个标准树节点
                /*
                    TreeNode<K,V> replacementTreeNode(Node<K,V> p, Node<K,V> next) 
                    return new TreeNode<>(p.hash, p.key, p.value, next);
                    
                 */
                TreeNode<K,V> p = replacementTreeNode(e, null);
                //如果红黑树的尾节点为null,则p节点为红黑树的头节点
                if (tl == null)
                    hd = p;
                else 
                    //有了头节点之后走这一步
                    //当前p的上一个节点指向尾节点
                    //tl的下一个节点指向p
                    p.prev = tl;
                    tl.next = p;
                
                //在只有一个节点时,头节点和尾节点都为p
                tl = p;
                //e向后移动
             while ((e = e.next) != null);
            //把转换的以head为头节点的红黑树放入桶中
            if ((tab[index] = hd) != null)
                //红黑树为了保持平衡进行的旋转
                hd.treeify(tab);
        
    

resize扩容方法

扩容机制

想要了解HashMap的扩容机制你要有这两个问题

  • 什么时候才需要扩容

  • HashMap的扩容是什么

1.什么时候才需要扩容

当HashMap中的元素个数超过数组大小(数组长度)*loadFactor(负载因子)时,就会进行数组扩容

loadFactor的默认值(DEFAULT_LOAD_FACTOR)是0.75,这是一个折中的取值,也就是说,默认情况下,数组大小为16,那么当HashMap中的元素个数超过16x0.75=12(这个值就是阈值或者边界值threshold值)的时候,就把数组的大小扩展为2x16=32,即扩大一倍,然后重新计算每个元素在数组中的位置,这是一个非常耗性能的操作,所以如果我们已经预知HashMap中元素的个数,这能很好的提高HashMap的性能

补充:
当HashMap中的一个链表的对象个数如果达到了8个,此时如果数组长度没有达到64,那么HashMap会先扩容解决,如果已经达到了64,那么这个链表会变成红黑树。节点类型有Node变成TreeNode类型。当然,如果映射关系被移除后,下次执行resize方法时判断树的节点个数低于6,也会再把树转换成链表

故:

  1. HashMap中的元素个数超过数组大小(数组长度)*loadFactor(负载因子)时,就会进行数组扩容
  2. 某个链表的长度大于8,且数组长度小于64,会进行扩容

2.HashMap的扩容是什么
进行扩容,会伴随着一次重新hash分配,并且会遍历hash表中所有的元素,是非常耗时的,再编写程序中,要尽量避免resize

HashMap在进行扩容时,使用的rehash方式非常巧妙,因为每次扩容都是翻倍,与原来计算的(n-1)&hash的结果相比,只是多了一个bit位,所以节点要么就在原来的位置上,要么就被分配到原位置+旧容量这个位置

怎么理解呢?例如我们从16扩展为32时,具体的变化如下所示:

我们发现当数组长度从16扩容至32,只是多了一个bit位的运算,我们只需在意多的bit位是1还是0,如果为0,则索引不变,如果为1,则多了旧容量的长度,从原索引值5变成了索引值为21,21=16+5,得出新的索引值=原位置+旧容量

扩容之后的索引位置要么是原来索引,要么是原来索引+旧数组容量


因此我们在扩容HashMap的时候,不需要重新计算hash,只需要来看看原来的hash值新增的那个bit是1还是0就可以了,是0的话索引不变,是1的话索引变成原位置+旧容量,可以看看下图为16扩充为32的resize示意图

正式因为这样巧妙地rehash方式,既省去了重新计算hash值的时间,而且同时,由于新增的1bit是0还是1是随机的,
在resize的过程汇总保证了rehash之后每个桶上的节点数一定小于等于原来桶上的节点数,保证了rehash之后不会出
现更严重的hash冲突,均匀的把之前的冲突的节点分散到新的桶中了

resize源码

    final Node<K,V>[] resize() 
        //oldTab:引用扩容前的哈希表
        Node<K,V>[] oldTab = table;
        //oldCap:表示扩容前的table数组的长度
        int oldCap = (oldTab == null) ? 0 : oldTab.length;
        //获得旧哈希表的扩容阈值
        int oldThr = threshold;
        //newCap:扩容之后table数组大小
        //newThr:扩容之后下次触发扩容的条件
        int newCap, newThr = 0;
        //条件成立说明hashMap中的散列表已经初始化过了,是一次正常扩容
        if (oldCap > 0) 
            //判断旧的容量是否大于等于最大容量,如果是,则无法扩容,并且设置扩容条件为int最大值,
            //这种情况属于非常少数的情况
            if (oldCap >= MAXIMUM_CAPACITY) 
                threshold = Integer.MAX_VALUE;
                return oldTab;
            //设置newCap新容量为oldCap旧容量的二倍(<<1),并且<最大容量,而且>=16,则新阈值等于旧阈值的两倍
            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                     oldCap >= DEFAULT_INITIAL_CAPACITY)
                newThr = oldThr << 1; // double threshold
        
        //如果oldCap=0并且边界值大于0,说明散列表是null,但此时oldThr>0
        //说明此时hashMap的创建是通过指定的构造方法创建的,新容量直接等于阈值
        //1.new HashMap(intitCap,loadFactor)
        //2.new HashMap(initCap)
        //3.new HashMap(map)
        else if (oldThr > 0) // initial capacity was placed in threshold
            newCap = oldThr;
        //这种情况下oldThr=0;oldCap=0,说明没经过初始化,创建hashMap
        //的时候是通过new HashMap()的方式创建的
        else                // zero initial threshold signifies using defaults
            newCap = DEFAULT_INITIAL_CAPACITY;
            newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
        
        //newThr为0时,通过newCap和loadFactor计算出一个newThr
        if (newThr == 0) 
            //容量*0.75
            float ft = (float)newCap * loadFactor;
            newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                      (int)ft : Integer.MAX_VALUE);
        
        threshold = newThr;
        @SuppressWarnings("rawtypes","unchecked")
                //根据上面计算出的结果创建一个更长更大的数组
            Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
        //将table指向新创建的数组
        table = newTab;
        //本次扩容之前table不为null
        if (oldTab != null) 
            //对数组中的元素进行遍历
            for (int j = 0; j < oldCap; ++j) 
                //设置e为当前node节点
                Node<K,V> e;
                //当前桶位数据不为空,但不能知道里面是单个元素,还是链表或红黑树,
                //e = oldTab[j],先用e记录下当前元素
                if ((e = oldTab[j]) != null) 
                    //将老数组j桶位置为空,方便回收
                    oldTab[j] = null;
                    //如果e节点不存在下一个节点,说明e是单个元素,则直接放置在新数组的桶位
                    if (e.next == null)
                        newTab[e.hash & (newCap - 1)] = e;
                    //如果e是树节点,证明该节点处于红黑树中
                    else if (e instanceof TreeNode)
                        ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                    //e为链表节点,则对链表进行遍历
                    else  // preserve order
                        //低位链表:存放在扩容之后的数组的下标位置,与当前数组下标位置一致
                        //loHead:低位链表头节点
                        //loTail低位链表尾节点
                        Node<K,V> loHead = null, loTail = null;
                        //高位链表,存放扩容之后的数组的下标位置,=原索引+扩容之前数组容量
                        //hiHead:高位链表头节点
                        //hiTail:高位链表尾节点
                        Node<K,V> hiHead = null, hiTail = null;
                        Node<K,V> next;
                        do 
                            next = e.next;
                            //oldCap为16:10000,与e.hsah做&运算可以得到高位为1还是0
                            //高位为0,放在低位链表
                            if ((e.hash & oldCap) == 0) 
                                if (loTail == null)
                                    //loHead指向e
                                    loHead = e;
                                else
                                    loTail.next = e;
                                loTail = e;
                            
                            //高位为1,放在高位链表
                            else 
                                if (hiTail == null)
                                    hiHead = e;
                                else
                                    hiTail.next = e;
                                hiTail = e;
                            
                         while ((e = next) != null);
                        //低位链表已成,将头节点loHead指向在原位
                        if (loTail != null) 
                            loTail.next = null;
                            newTab[j] = loHead;
                        
                        //高位链表已成,将头节点指向新索引
                        if (hiTail != null) 
                            hiTail.next = null;
                            newTab[j + oldCap] = hiHead;
                        
                    
                以上是关于HashMap底层源码解析下(超详细图解)的主要内容,如果未能解决你的问题,请参考以下文章

HashMap底层源码解析上(超详细图解+面试题)

HashMap 源码详细解析 (JDK1.8)

创建数据库中,超详细常用的MySQL命令(含解析图解与全部代码)

Java并发集合类ConcurrentHashMap底层核心源码解析

源码那些事超详细的ArrayList底层源码+经典面试题

超详细!从HashMap到ConcurrentMap,我是如何一步步实现线程安全的!