使用HashSet去重的坑

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用HashSet去重的坑相关的知识,希望对你有一定的参考价值。

参考技术A

java中使用HashSet去重必须重写hashCode()和equals()。
但是HashSet去重并不会把原来的给覆盖掉,而是直接丢弃新的。
例如有一个类:

在写一个main方法:

然后会得到如下结果:

我们就会发现name="王五"的对象并没有覆盖name="张三"的对象。
原因是因为HashSet底层使用的是HashMap。
当调用add()时,会把对象存入key中,value则为一个静态的Object对象。
源码如下:

但是 HasHMap遇到重复的key时只会把value替换掉
而HashSet存进去的对象是放在HashMap中的key里。
所以使用HasHSet去重得到的是第一个未重复对象,后续重复的对象直接被丢弃。没有被覆盖。

java集合之HashSet


特征

HashSet是实现Set,功能上相比ArrayList的特点具有去重的功能。其底层是通过HashMap实现的。正如名字的Hash,HashSet的去重是使用集合元素的hash值来实现的。

java集合之HashSet_ide


HashMap采用链表+数组形式,每一个元素加入会先通过hash取值,获得数组的位置,再判断该数组的链表位置是否有元素,如果有判断是否相同,相同则跳过,如果不同,将其加入链表末尾

源码分析

下文通过HashSet的add操作,来解读HashSet的功能

//代码debug调试
public class HashSetTest
public static void main(String[] args)
HashSet hashSet=new HashSet();
for(int i=0;i<=8;i++)
hashSet.add(new person("tom",i));

hashSet.add(new person("tom",1));
System.out.println(hashSet);



class person
private String name;
private int age;

public person(String name, int age)
this.name = name;
this.age = age;


@Override
public String toString()
return "person" +
"name=" + name + \\ +
", age=" + age +
;


@Override
public boolean equals(Object o)
if (this == o) return true;
if (o == null || getClass() != o.getClass()) return false;
person person = (person) o;
return age == person.age && Objects.equals(name, person.name);


@Override
public int hashCode()
return Objects.hash(name, age);

下面按照debug顺序,进行截图和说明

1.进行put操作

判断key,如果返回为null,表示hashset无此元素,可将其加入

java集合之HashSet_链表_02


2.调用此方法,将对值进行Hash取值

java集合之HashSet_链表_03


3.此方法会首先判断值是否为null,如果是返回0,否则对其hashcode获得的值进行右移操作

java集合之HashSet_数组_04


调用重写的hashcode方法,部分

java集合之HashSet_链表_05


4 进行去重操作

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict)
Node<K,V>[] tab; Node<K,V> p; int n, i;
//如果当前hashset为null或长度为0 则进行初始化
if ((tab = table) == null || (n = tab.length) == 0)
n = (tab = resize()).length;
//位置进行hash 因为hashset是数组+链表式结构 所以首先通过hash判断数组位置是否为空,为空则将其加入,hash获取数组位置
if ((p = tab[i = (n - 1) & hash]) == null)
tab[i] = newNode(hash, key, value, null);
else
//初始化新节点
Node<K,V> e; K k;
//判断是否为null或者内容相同,则直接退出
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
e = p;
//判断是否为红黑树
else if (p instanceof TreeNode)
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
else
for (int binCount = 0; ; ++binCount)
//遍历链表
//如果直到最后的值,都没有找出相同的则直接将值添加到最后
if ((e = p.next) == null)
//取出数据
p.next = newNode(hash, key, value, null);
//链的长度到8,判断数组长度是否达到64,若否进行扩容,若则进行树化
if (binCount >= TREEIFY_THRESHOLD - 1)
treeifyBin(tab, hash);
break;

//判断两个的hash值,
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e;


//如果存在该值,则返回非null
if (e != null) // existing mapping for key
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
e.value = value;
afterNodeAccess(e);
return oldValue;


++modCount;
if (++size > threshold)
resize();
afterNodeInsertion(evict);
return null;
/**
* Replaces all linked nodes in bin at index for given hash unless
* table is too small, in which case resizes instead.
*树化操作
*/
final void treeifyBin(Node<K,V>[] tab, int hash)
int n, index; Node<K,V> e;
//判断数组是否为null,判断数组长度是否为64
if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
resize();
//key进行tab的hash,判断数组的位置
else if ((e = tab[index = (n - 1) & hash]) != null)
TreeNode<K,V> hd = null, tl = null;
do
TreeNode<K,V> p = replacementTreeNode(e, null);
if (tl == null)
hd = p;
else
p.prev = tl;
tl.next = p;

tl = p;
while ((e = e.next) != null);
if ((tab[index] = hd) != null)
hd.treeify(tab);


以上是关于使用HashSet去重的坑的主要内容,如果未能解决你的问题,请参考以下文章

freemarker list集合去重,实现hashset

java集合之HashSet

纯数组去重

Java实现List去重的5种方式

set是如何做到去重的?

set是如何做到去重的?