HDFS中的文件租约Strom中的LRUMap底层竟然是......

Posted 2021-04-14 大数据Kafka技术分享

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了HDFS中的文件租约Strom中的LRUMap底层竟然是......相关的知识，希望对你有一定的参考价值。

第一章 JDK源码剖析-集合篇

第 8 节

HashMap的兄弟姐妹们

这一节带大家一起过一下HashMap的其他兄弟姐妹。还是围绕一个原理图来讲解核心知识，今天还会给大家举2个开源项目中使用它们的例子。

你之后可以自己按照原理图的思路来看下源码，彻底掌握它们的原理。

LinkedHashMap的源码底层原理

LinkedHashMap继承自HashMap,但是它的底层增加了一个链表来维护插入或者访问顺序，使得LinkedHashMap变动有顺序性。如下图所示：

HDFS中的文件租约、Strom中的LRUMap底层竟然是......

上图中可以看出，LinkedHashMap继承了HashMap，多了两个成员变量，tail和head指针，还使用Entry内部类继承了HashMap的Node内部类，在原有基础上增加了before和after指针。

默认情况下，是按照插入顺序的，也就是put的顺序。LiknedHashMap在put元素的时候会记录用指针，将数组元素的插入顺序记录下来。

通过重写HashMap的newNode()方法，在put方法，插入一个Entry后，Entry的before和last指针类似链表会连起来，并且LinkedHashMap的tail和head指针也会记录下首尾元素。将插入顺序用链表记录下来。

至于访问顺序的情况，你可以在一会后面的例子会提到。

TreeMap的源码底层原理

同理TreeMap也是一个有序的Map，底层是通过红黑树来维持顺序的，并且TreeMap支持自定义排序规则。原理下图所示：

HDFS中的文件租约、Strom中的LRUMap底层竟然是......

TreeMap没有继承HashMap，他自己实现了put方法，主要逻辑是生成树root节点和普通叶子节点。

刚开始树为空，肯定是进入第一步，生成root节点，创建一个Entry就结束了，这个Entry中多了left和partent、right，color等变量。

创建TreeMap的时候可以指定排序规则，默认不指定使用Key值默认的compare方法,进行排序生成一棵排序后的二叉树，之后调整为红黑树。

而且它没有数组的结构，它就是一个纯粹的红黑树，get的时候通过遍历红黑树获取元素。

在遍历的时候，TreeMap通过EntryIterator进行从小到大的遍历，实现有序访问。

HashTable、HashSet、LinkedHashSet、TreeSet底层原理

最后我们聊一下HashMap的其他兄弟姐妹。为什么这么说呢？

因为HashTable和HashMap核心区别就是使用synchronized保证线程安全，这个和Vector+ArrayList很像。

因为HashSet使用了HashMap，只不过add方法时候的value都是new Object()而已，结合map的特性，同一个key值只能存在一个，map在put的时候，会hash寻址到数组的同一个位置去，然后覆盖原来的值，所以Set是去重的。默认是无序的。核心代码如下：

   public boolean add(E e) {
       return map.put(e, PRESENT)==null;
   }

因为LinkedHashSet继承了HashSet,此时HashSet通过使用LinkedHashMap是可以进行访问有序的保证。

因为TreeSet也同理，默认是根据key值的compare方法来排序的，可以自定义Comparator，底层使用了TreeMap，add元素时，同样是空的Object，同样去重，但是TreeSet访问是可以有序。

   public boolean add(E e) {
       return map.put(e, PRESENT)==null;
   }

它们的源码都极其简单，没什么好研究的。所以重点是，你懂了之前的HashMap、LinkedHashMap、TreeMap才是关键。

下面我们来看一些使用这些集合的场景：

LinkedHashMap应用：Storm中的LRUMap

之前你应该熟悉了LinkedHashMap的的插入有序性。调用put方法时，通过链表记录插入的顺序。但是LinkedHashMap还可以支持访问有序性。按照get方法的访问顺序，进行排序。比如：

这个底层和插入有序很像，也是通过一个变量叫做accessOrder和HashMap的put方法和get中重写预留的方法做到的。

每访问一次元素，会将元素移动链表的指针，将刚访问的元素移动到链表的尾部。

基于这个机制我们可以实现一个LRU的Map，实现有自动失效LRU内存缓存Map,这样当元素个数超过缓存容量时，通过LRU可以保证最近最少访问的元素被移除掉。

如果你看过storm的源码的话，你会看到有这样一个LRUMap实现：

import java.util.LinkedHashMap;
import java.util.Map;


public class LRUMap<A, B> extends LinkedHashMap<A, B> {
    private int maxSize;


    public LRUMap(int maxSize) {
        super(maxSize + 1, 1.0f, true);
        this.maxSize = maxSize;
    }


    @Override
    protected boolean removeEldestEntry(final Map.Entry<A, B> eldest) {
        return size() > maxSize;
    }
}

这个方法很巧妙的基于LinkedHashMap访问有序，实现了一个LRUMap。

首先通过maxSize限定缓存Map的大小，调用父类构造函数，扩容因子为1.0f，第三个入参表示accessOrder=true。重写了removeEldestEntry。

其次通过LinkedHashMap,在get方法时候，如果accessOrder是true，会将get到的元素，放到链表的尾部。保证Map缓存中最新访问的元素的不会被LRU掉。get方法源码如下：

public V get(Object key) {
    Node<K,V> e;
    if ((e = getNode(hash(key), key)) == null)
        return null;
    if (accessOrder)
        afterNodeAccess(e);
    return e.value;
}

可以看到有一个方法afterNodeAccess,通过这个来控制LinkedList访问时，单向链表的顺序，从而达到访问有序。

在put方法的时候有一个扩展的入口afterNodeInsertion中，HashMap默认这个方法是空的，什么都不做。但是LinkedHashMap实现了这个方法，并且通过removeEldestEntry+accessOrder控制，如果访问有序参数为true，并且头节点有元素，且 removeEldestEntry 满足，即size() > maxSize，缓存大小达到上限maxSize，会进行一次removeNode操作，移除链表第一个元素。第一个元素就是最近最少访问的元素。如下图所示：

HashMap的put方法: afterNodeInsertion回调入口

HDFS中的文件租约、Strom中的LRUMap底层竟然是......