HashSet与HashMap

Posted 西安比特教育

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了HashSet与HashMap相关的知识,希望对你有一定的参考价值。


比特科技
HashSet与HashMap   HashSet与HashMap


目的:了解HashSet的内部结构和使用

1:Hash表:要了解HashSet,先要了解Hash表这一数据结构,包括Hash计算、装载因子、扩容等知识点。


2:HashSet的继承关系图

                                 HashSet与HashMap

对于接口Set,是一种不包含重复的元素的Collection,即任意的两个元素e1和e2都有e1.equals(e2)=false,Set最多有一个null元素。Set的构造函数有一个约束条件,传入的Collection参数不能包含重复的元素。请注意:必须小心操作可变对象(Mutable Object)。如果一个Set中的可变元素改变了自身状态导致Object.equals(Object)=true将导致一些问题。

HashSet的API: 

public class HashSet<E> extends AbstractSet<E> implements Set<E>, Cloneable, java.io.Serializable {
// 使用 HashMap 的 key 保存 HashSet 中所有元素
private transient HashMap<E,Object> map;

// 定义一个虚拟的 Object 对象作为 HashMap 的 value
private static final Object PRESENT = new Object();

// 默认构造函数
public HashSet()
   
// 带集合的构造函数
public HashSet(Collection<? extends E> c)
   
// 指定HashSet初始容量和加载因子的构造函数
public HashSet(int initialCapacity, float loadFactor)
   
// 指定HashSet初始容量的构造函数
public HashSet(int initialCapacity)
   
// 指定HashSet初始容量和加载因子的构造函数,dummy没有任何作用
HashSet(int initialCapacity, float loadFactor, boolean dummy)

由上面源程序可以看出,HashSet 的实现其实非常简单,它只是封装了一个 HashMap 对象来存储所有的集合元素,所有放入 HashSet 中的集合元素实际上由 HashMap 的 key 来保存,而 HashMap 的 value 则存储了一个 PRESENT,它是一个静态的 Object 对象。

往hashset中插入对象其实只不过是内部做了

            public boolean add(Object o) {

                      return map.put(o, PRESENT)==null;
            }

HashSet 的绝大部分方法都是通过调用 HashMap 的方法来实现的,因此 HashSet 和 HashMap 两个集合在实现本质上是相同的。


3:HashMap

                

上图为Hashmap的数据结构图,具体实线是采用数组结合链表实现,链表是为了解决在hash过程中因hash值一样导致的碰撞问题。

所以在使用自定义对象做key的时候,一定要去实现hashcode方法,不然HashMap就成了纯粹的链表,查找性能非常的慢,添加节点元素也非常的慢。


HashMap的成员变量:

//默认初始容量,总为2的次方值  
static final int DEFAULT_INITIAL_CAPACITY = 16;  
 
//最大容量  
static final int MAXIMUM_CAPACITY = 1 << 30;  
 
//默认加载因子    
static final float DEFAULT_LOAD_FACTOR = 0.75f;  
 
//Entry数组,每一个Entry是一个键值对实体  
transient Entry[] table;  
 
//实际存的Entry个数    
transient int size;  
 

//数组扩容的阀值,当size+1 > threshold时,扩充到以前容量的两倍  
//threshold = table.length * loadFactor  
int threshold;  
 
//负载比率  
final float loadFactor;  
 
//Map结构一旦变化,如put remove clear等操作的时候,modCount随之变化  
transient volatile int modCount;


可以看出,Entry就是数组中的元素,每个 Map.Entry 其实就是一个key-value对,它持有一个指向下一个元素的引用,这就构成了链表。


Entry对象:

//很简单的一个键值对实体而已  
static class Entry<K,V> implements Map.Entry<K,V> {  
       final K key;          //key  
       V value;              //value  
       Entry<K,V> next;  //next Entry  
       final int hash;       //计算出key的hash值  
 
       /**
        * Creates new entry.
        */
 
       Entry(int h, K k, V v, Entry<K,V> n) {  
           value = v;  
           next = n;  
           key = k;  
           hash = h;  
       }  
       .....  
}


构造函数:


// 构造函数  
public HashMap(int initialCapacity, float loadFactor) {  
   if (initialCapacity < 0)  
       throw new IllegalArgumentException("Illegal initial capacity: "  
               + initialCapacity);  
   if (initialCapacity > MAXIMUM_CAPACITY)  
       initialCapacity = MAXIMUM_CAPACITY;  
   if (loadFactor <= 0 || Float.isNaN(loadFactor))  
       throw new IllegalArgumentException("Illegal load factor: "  
               + loadFactor);  
 
   // 将传入的initialCapacity值,转变成2的次方值capacity去实例化hashmap的属性  
   // 比喻传入initialCapacity = 100,则算出来capacity = 2 << 7 = 128,  
   // 最终threshold = 128 * 0.75 = 96,table = new Entry[128]  
   int capacity = 1;  
   while (capacity < initialCapacity)  
       capacity <<= 1;  
 
   this.loadFactor = loadFactor;  
   threshold = (int) (capacity * loadFactor);  
   table = new Entry[capacity];  
   // 模板方法模式,子类想在init里面做点什么重写init就好了  
   init();  
}


hash算法:


/**
* 让hashMap里面的元素尽量分布均需,方便查找
* @param h entry中key的hash值
* @return 打散后的hash值
*/
 
static int hash(int h) {  
   // This function ensures that hashCodes that differ only by  
   // constant multiples at each bit position have a bounded  
   // number of collisions (approximately 8 at default load factor).  
   h ^= (h >>> 20) ^ (h >>> 12);  
   return h ^ (h >>> 7) ^ (h >>> 4);  
}

HashMap的功能是通过“键(key)”能够快速的找到“值”。下面我们分析下HashMap存数据的基本流程:


(1):当调用put(key,value)时,首先获取key的hashcode,int hash = key.hashCode(); 


(2): 再把hash通过一下运算得到一个int h.  

h ^= (h >>> 20) ^ (h >>> 12);          

return h ^ (h >>> 7) ^ (h >>> 4);
为什么要经过这样的运算呢?这就是HashMap的高明之处。先看个例子,一个十进制数32768(二进制1000 0000 0000 0000),经过上述公式运算之后的结果是35080(二进制1000 1001 0000 1000)。看出来了吗?或许这样还看不出什么,再举个数字61440(二进制1111 0000 0000 0000),运算结果是65263(二进制1111 1110 1110 1111),现在应该很明显了,它的目的是让“1”变的均匀一点,散列的本意就是要尽量均匀分布。那这样有什么意义呢?看第3步。 


(3) :得到h之后,把h与HashMap的承载量(HashMap的默认承载量length是16,可以自动变长。在构造HashMap的时候也可以指定一个长 度。这个承载量就是上图所描述的数组的长度。)进行逻辑与运算,即 h & (length-1),这样得到的结果就是一个比length小的正数,我们把这个值叫做index。其实这个index就是索引将要插入的值在数组中的 位置。第2步那个算法的意义就是希望能够得出均匀的index,这是HashTable的改进,HashTable中的算法只是把key的 hashcode与length相除取余,即hash % length,这样有可能会造成index分布不均匀。还有一点需要说明,HashMap的键可以为null,它的值是放在数组的第一个位置。 
 

(4) :我们用table[index]表示已经找到的元素需要存储的位置。先判断该位置上有没有元素(这个元素是HashMap内部定义的一个类Entity, 基本结构它包含三个类,key,value和指向下一个Entity的next),没有的话就创建一个Entity<K,V>对象,在 table[index]位置上插入,这样插入结束;如果有的话,通过链表的遍历方式去逐个遍历,看看有没有已经存在的key,有的话用新的value替 换老的value;如果没有,则在table[index]插入该Entity,把原来在table[index]位置上的Entity赋值给新的 Entity的next,这样插入结束。
 总结: Key ->  hashCode -> h -> index -> 遍历链表 -> 插入

要同时复写equals方法和hashCode方法。

按照散列函数的定义,如果两个对象相同,即obj1.equals(obj2)=true,则它们的hashCode必须相同,但如果两个对象不同,则它们的hashCode不一定不同。

如果两个不同对象的hashCode相同,这种现象称为冲突,冲突会导致操作哈希表的时间开销增大,所以尽量定义好的hashCode()方法,能加快哈希表的操作。



文章转载自博客园,版权归原作者所有


编辑:比特李哥

导师微信 15596668826

导师QQ 2799935869


导师Tel / 15249287076



以上是关于HashSet与HashMap的主要内容,如果未能解决你的问题,请参考以下文章

HashSet的实现,与hashMap的关系

java---Hashset与Hashmap的区别

Java集合一 HashMap与HashSet

HashSet与HashMap

HashMap底层实现原理/HashMap与HashTable区别/HashMap与HashSet区别

HashMap底层实现原理/HashMap与HashTable区别/HashMap与HashSet区别