深入源码分析HashSet
Posted tangjunqing
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了深入源码分析HashSet相关的知识,希望对你有一定的参考价值。
对于HashSet而言,它是基于HashMap实现的。HashSet底层采用HashMap来保存元素,因此HashSet底层其实比较简单。
package java.util; public class HashSet<E> extends AbstractSet<E> implements Set<E>, Cloneable, java.io.Serializable static final long serialVersionUID = -5024744406713321676L; // HashSet是通过map(HashMap对象)保存内容的 private transient HashMap<E,Object> map; // 定义一个虚拟的Object PRESENT是向map中插入key-value对应的value // 因为HashSet中只需要用到key,而HashMap是key-value键值对; // 所以,向map中添加键值对时,键值对的值固定是PRESENT private static final Object PRESENT = new Object(); // 默认构造函数 底层创建一个HashMap public HashSet() // 调用HashMap的默认构造函数,创建map map = new HashMap<E,Object>(); // 带集合的构造函数 public HashSet(Collection<? extends E> c) // 创建map。 // 为什么要调用Math.max((int) (c.size()/.75f) + 1, 16),从 (c.size()/.75f) + 1 和 16 中选择一个比较大的树呢? // 首先,说明(c.size()/.75f) + 1 // 因为从HashMap的效率(时间成本和空间成本)考虑,HashMap的加载因子是0.75。 // 当HashMap的“阈值”(阈值=HashMap总的大小*加载因子) < “HashMap实际大小”时, // 就需要将HashMap的容量翻倍。 // 所以,(c.size()/.75f) + 1 计算出来的正好是总的空间大小。 // 接下来,说明为什么是 16 。 // HashMap的总的大小,必须是2的指数倍。若创建HashMap时,指定的大小不是2的指数倍; // HashMap的构造函数中也会重新计算,找出比“指定大小”大的最小的2的指数倍的数。 // 所以,这里指定为16是从性能考虑。避免重复计算。 map = new HashMap<E,Object>(Math.max((int) (c.size()/.75f) + 1, 16)); // 将集合(c)中的全部元素添加到HashSet中 addAll(c); // 指定HashSet初始容量和加载因子的构造函数 public HashSet(int initialCapacity, float loadFactor) map = new HashMap<E,Object>(initialCapacity, loadFactor); // 指定HashSet初始容量的构造函数 public HashSet(int initialCapacity) map = new HashMap<E,Object>(initialCapacity); HashSet(int initialCapacity, float loadFactor, boolean dummy) map = new LinkedHashMap<E,Object>(initialCapacity, loadFactor); // 返回HashSet的迭代器 public Iterator<E> iterator() // 实际上返回的是HashMap的“key集合的迭代器” return map.keySet().iterator(); //调用HashMap的size()方法返回Entry的数量,得到该Set里元素的个数 public int size() return map.size(); //调用HashMap的isEmpty()来判断HaspSet是否为空 //HashMap为null。对应的HashSet也为空 public boolean isEmpty() return map.isEmpty(); //调用HashMap的containsKey判断是否包含指定的key //HashSet的所有元素就是通过HashMap的key来保存的 public boolean contains(Object o) return map.containsKey(o); // 将元素(e)添加到HashSet中,也就是将元素作为Key放入HashMap中 public boolean add(E e) return map.put(e, PRESENT)==null; // 删除HashSet中的元素(o),其实是在HashMap中删除了以o为key的Entry public boolean remove(Object o) return map.remove(o)==PRESENT; //清空HashMap的clear方法清空所有Entry public void clear() map.clear(); // 克隆一个HashSet,并返回Object对象 public Object clone() try HashSet<E> newSet = (HashSet<E>) super.clone(); newSet.map = (HashMap<E, Object>) map.clone(); return newSet; catch (CloneNotSupportedException e) throw new InternalError(); // java.io.Serializable的写入函数 // 将HashSet的“总的容量,加载因子,实际容量,所有的元素”都写入到输出流中 private void writeObject(java.io.ObjectOutputStream s) throws java.io.IOException // Write out any hidden serialization magic s.defaultWriteObject(); // Write out HashMap capacity and load factor s.writeInt(map.capacity()); s.writeFloat(map.loadFactor()); // Write out size s.writeInt(map.size()); // Write out all elements in the proper order. for (Iterator i=map.keySet().iterator(); i.hasNext(); ) s.writeObject(i.next()); // java.io.Serializable的读取函数 // 将HashSet的“总的容量,加载因子,实际容量,所有的元素”依次读出 private void readObject(java.io.ObjectInputStream s) throws java.io.IOException, ClassNotFoundException // Read in any hidden serialization magic s.defaultReadObject(); // Read in HashMap capacity and load factor and create backing HashMap int capacity = s.readInt(); float loadFactor = s.readFloat(); map = (((HashSet)this) instanceof LinkedHashSet ? new LinkedHashMap<E,Object>(capacity, loadFactor) : new HashMap<E,Object>(capacity, loadFactor)); // Read in size int size = s.readInt(); // Read in all elements in the proper order. for (int i=0; i<size; i++) E e = (E) s.readObject(); map.put(e, PRESENT);
从上述HashSet源代码可以看出,它其实就是一个对HashMap的封装而已。所有放入HashSet中的集合元素实际上由HashMap的key来保存,而HashMap的value则存储了一个PRESENT,它是一个静态的Object对象。
HashSet的绝大部分方法都是通过调用HashMap的方法来实现的,因此HashSet和HashMap两个集合在实现本质上是相同的。
根据HashMap的一个特性: 将一个key-value对放入HashMap中时,首先根据key的hashCode()返回值决定该Entry的存储位置,如果两个key的hash值相同,那么它们的存储位置相同。如果这个两个key的equalus比较返回true。那么新添加的Entry的value会覆盖原来的Entry的value,key不会覆盖。因此,如果向HashSet中添加一个已经存在的元素,新添加的集合元素不会覆盖原来已有的集合元素。
现在我们通过一个实际的例子来看看是否真正理解了HashMap和HashSet存储元素的细节:
class Name private String first; private String last; public Name(String first, String last) this.first = first; this.last = last; public boolean equals(Object o) if (this == o) return true; if (o.getClass() == Name.class) Name n = (Name)o; return n.first.equals(first) && n.last.equals(last); return false; public class HashSetTest public static void main(String[] args) Set<Name> s = new HashSet<Name>(); s.add(new Name("abc", "123")); System.out.println( s.contains(new Name("abc", "123")));
上面程序中向HashSet里添加了一个new Name(“abc”,”123”)对象之后,立即通过程序判断该HashSet里是否包含一个new Name(“abc”,”123”)对象。粗看上去,很容易以为该程序会输出true。
实际上会输出false。因为HashSet判断两个对象相等的标准是想通过hashCode()方法计算出其hash值,当hash值相同的时候才继续判断equals()方法。而如上程序我们并没有重写hashCode()方法。所以两个Name类的hash值并不相同,因此HashSet会把其当成两个对象来处理。
所以,当我们要将一个类作为HashMap的key或者存储在HashSet的时候。通过重写hashCode()和equals(Object object)方法很重要,并且保证这两个方法的返回值一致。当两个类的hashCode()返回一致时,应该保证equasl()方法也返回true。当给上述Name类增加如下方法:
public void hashCode() return first.hashCode()+last.hashCode();
以上是关于深入源码分析HashSet的主要内容,如果未能解决你的问题,请参考以下文章