Java集合类总结

Posted 2020-10-04

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Java集合类总结相关的知识，希望对你有一定的参考价值。

Java集合总结

Collection是集合接口

|————Set子接口:无序，不允许重复。
|————List子接口:有序，可以有重复元素。

区别：Collections是集合类

Set和List对比：

Set：检索元素效率低下，删除和插入效率高，插入和删除不会引起元素位置改变。
List：和数组类似，List可以动态增长，查找元素效率高，插入删除元素效率低，因为会引起其他元素位置改变。

Set和List具体子类：

Set
|————HashSet：以哈希表的形式存放元素，插入删除速度很快。

List
|————ArrayList：动态数组
|————LinkedList：链表、队列、堆栈。

扩展
Array和java.util.Vector
Vector是一种老的动态数组，是线程同步的，效率很低，一般不赞成使用。
Linked 改快读慢
Array 读快改慢
Hash 两者之间

技术分享

详细介绍

1）列表 List接口（继承于Collection接口）及其实现类

List接口及其实现类是容量可变的列表，可按索引访问集合中的元素。
特点：集合中的元素有序、可重复；
列表在数据结构中分别表现为：数组和向量、链表、堆栈、队列。

实现类：

ArrayList 实现一个数组，它的规模可变并且能像链表一样被访问。它提供的功能类似Vector类但不同步，它是以Array方式实现的List，允许快速随机存取。
LinkedList实现一个链表，提供最佳顺序存取，适合插入和移除元素。由这个类定义的链表也可以像栈或队列一样被使用。提供最佳顺序存取，适合插入和移除元素。

2）、集 Set接口（继承于Collection接口）及其实现类

对Set中成员的访问和操作是通过Set中对象的引用进行的，所以集中不能有重复对象。
特点：集合中的元素不按特定方式排序，只是简单的把对象加入集合中，就像往口袋里放东西。

Set也有多种变体，可以实现排序等功能，如TreeSet，它把对象添加到集中的操作将变为按照某种比较规则将其插入到有序的对象序列中。它实现的是SortedSet接口，也就是加入了对象比较的方法。通过对集中的对象迭代，我们可以得到一个升序的对象集合。

实现类：

HashSet 能够快速定位一个元素，要注意的是：存入HashSet中的对象必须实现HashCode()方法；
TreeSet 将放入其中的元素按序存放。

3）、映射 Map接口及其实现类

Map是一个单独的接口，不继承于Collection。Map是一种把键对象和值对象进行关联的容器。
特点：key不允许重复。

映射与集或列表有明显区别，映射中每个项都是成对的，Map是把键对象和值对象进行关联的容器。映射中存储的每个对象都有一个相关的关键字(Key)对象，关键字决定了对象在映射中的存储位置，检索对象时必须提供相应的关键字，就像在字典中查单词一样。关键字应该是唯一的，也就是说Map中的键对象不允许重复，这是为了保证查询结果的一致性。

关键字本身并不能决定对象的存储位置，它需要对过一种散列(hashing)技术来处理，产生一个被称作散列码(hash code)的整数值，散列码通常用作一个偏置量，该偏置量是相对于分配给映射的内存区域起始位置的，由此确定关键字/对象对的存储位置。理想情况下，散列处理应该产生给定范围内均匀分布的值，而且每个关键字应得到不同的散列码。

实现类：

HashMap 实现一个键到值映射的哈希表，通过键取得值对象，没有顺序，通过get(key)来获取value，允许存储空对象，而且允许键是空(由于键必须是唯一的，当然只能有一个)；
HashTable 实现一个映象，所有的键必须非空。为了能高效的工作，定义键的类必须实现hashcode()方法和equal()方法。这个类是前面java实现的一个继承，并且通常能在实现映象的其他类中更好的使用。
当元素的顺序很重要时选用TreeMap，当元素不必以特定的顺序进行存储时，使用HashMap。Hashtable的使用不被推荐，因为HashMap提供了所有类似的功能，并且速度更快。当你需要在多线程环境下使用时，HashMap也可以转换为同步的。
Properties 一般是把属性文件读入流中后，以键-值对的形式进行保存，以方便读取其中的数据。

4）、Iterator接口

Iterator接口位于java.util包中，它是一个对集合进行迭代的迭代器。

集合容器（如：List、Set、Map等）本身提供了处理元素置入和取出的方式，但是单一选取元素的方法很受限制。所以我们要用Iterator去选取容器中的元素，它将容器转换成一个序列。

一些集合类提供了内容遍历的功能，通过java.util.Iterator接口。这些接口允许遍历对象的集合。依次操作每个元素对象。当使用 Iterators时，在获得Iterator的时候包含一个集合快照。通常在遍历一个Iterator的时候不建议修改集合本省。

Iterator iter = Object.iterator();
while(iter.hasNext()){ ... }

面试题汇总

Iterator与ListIterator有什么区别？
Iterator：只能正向遍历集合，适用于获取移除元素。ListIerator：继承Iterator，可以双向列表的遍历，同样支持元素的修改。
什么是HaspMap和Map？
Map是接口，Java 集合框架中一部分，用于存储键值对，HashMap是用哈希算法实现Map的类。
HashMap与HashTable有什么区别？
两者都是用key-value方式获取数据。
Hashtable是原始集合类之一（也称作遗留类）。
HashMap作为新集合框架的一部分在Java2的1.2版本中加入。它们之间有一下区别：
- HashMap和Hashtable大致是等同的，除了非同步和空值（HashMap允许null值作为key和value，而Hashtable不可以）。
- HashMap没法保证映射的顺序一直不变，但是作为HashMap的子类LinkedHashMap，如果想要预知的顺序迭代（默认按照插入顺序），你可以很轻易的置换为HashMap，如果使用Hashtable就没那么容易了。
- HashMap不是同步的，而Hashtable是同步的。
- 迭代HashMap采用快速失败机制，而Hashtable不是，所以这是设计的考虑点。
在Hashtable上下文中同步是什么意思？
同步意味着在一个时间点只能有一个线程可以修改哈希表，任何线程在执行hashtable的更新操作前需要获取对象锁，其他线程等待锁的释放。
什么叫做快速失败特性
从高级别层次来说快速失败是一个系统或软件对于其故障做出的响应。一个快速失败系统设计用来即时报告可能会导致失败的任何故障情况，它通常用来停止正常的操作而不是尝试继续做可能有缺陷的工作。当有问题发生时，快速失败系统即时可见地发错错误告警。在Java中，快速失败与iterators有关。如果一个iterator在集合对象上创建了，其它线程欲“结构化”的修改该集合对象，并发修改异常（ConcurrentModificationException）抛出。
怎样使Hashmap同步？
HashMap可以通过Map m = Collections.synchronizedMap（hashMap）来达到同步的效果。
什么时候使用Hashtable，什么时候使用HashMap
基本的不同点是Hashtable同步HashMap不是的，所以无论什么时候有多个线程访问相同实例的可能时，就应该使用Hashtable，反之使用HashMap。非线程安全的数据结构能带来更好的性能。
如果在将来有一种可能—你需要按顺序获得键值对的方案时，HashMap是一个很好的选择，因为有HashMap的一个子类 LinkedHashMap。所以如果你想可预测的按顺序迭代（默认按插入的顺序），你可以很方便用LinkedHashMap替换HashMap。反观要是使用的Hashtable就没那么简单了。同时如果有多个线程访问HashMap，Collections.synchronizedMap（）可以代替，总的来说HashMap更灵活。
为什么Vector类认为是废弃的或者是非官方地不推荐使用？或者说为什么我们应该一直使用ArrayList而不是Vector？
你应该使用ArrayList而不是Vector是因为默认情况下你是非同步访问的，Vector同步了每个方法，你几乎从不要那样做，通常有想要同步的是整个操作序列。同步单个的操作也不安全（如果你迭代一个Vector，你还是要加锁，以避免其它线程在同一时刻改变集合）.而且效率更慢。当然同样有锁的开销即使你不需要，这是个很糟糕的方法在默认情况下同步访问。你可以一直使用Collections.sychronizedList来装饰一个集合。
事实上Vector结合了“可变数组”的集合和同步每个操作的实现。这是另外一个设计上的缺陷。Vector还有些遗留的方法在枚举和元素获取的方法，这些方法不同于List接口，如果这些方法在代码中程序员更趋向于想用它。尽管枚举速度更快，但是他们不能检查如果集合在迭代的时候修改了，这样将导致问题。尽管以上诸多原因，Oracle也从没宣称过要废弃Vector。
Collection、Set和List的区别？
Collection对象之间没有指定的顺序，允许有重复元素和多个null元素对象；它是Set和List接口的父类，是一种最通用型的集合接口;
Set各个元素对象之间没有指定的顺序，不允许有重复元素，最多允许有一个null元素对象；
List各个元素对象之间有指定的顺序，允许重复元素和多个null元素对象；
LinkedList，ArrayList，Vector，Stack，Queue区别？NodeList区别？
1. LinkedList链式访问，以指针相连，适合于在链表中间需要频繁进行插入和删除操作。
2. ArrayList类似数组的形式，按照序号存储，随机访问速度非常快。
3. Vector向量按照各元素序号存储，数组大小可以动态增长，对于大容量数据存储效率较高。
4. Stack堆栈，先进后出的数组。
这些类的对比与选择：如果涉及到堆栈队列等操作，应该考虑List中的stack，queue 对于需要快速插入删除元素，应该使用linkedlist 如果需要快速随机访问元素，应该选用arraylist 如果程序在单线程环境中，选用非同步类如果在多线程中，选用同步类vector、stack和hashtable以及其子类。
Set和Map的关系
Set代表无序，不能重复的集合；
Map代表Key-Value组成的集合，是一种关联数组。Map的Key要求是不能重复，没有顺序。把Map的所有Key组合起来就是Set。Set keySet();
Vector和ArrayList区别

Vector提供synchronized修饰方法，是线程安全版本的ArrayList

原理介绍

ArrayList实现原理要点概括

参考文献

ArrayList是List接口的可变数组非同步实现，并允许包括null在内的所有元素。
底层使用数组实现
该集合是可变长度数组，数组扩容时，会将老数组中的元素重新拷贝一份到新的数组中，每次数组容量增长大约是其容量的1.5倍，这种操作的代价很高。
采用了Fail-Fast机制，面对并发的修改时，迭代器很快就会完全失败，而不是冒着在将来某个不确定时间发生任意不确定行为的风险
LinkedList实现原理要点概括

参考文献
LinkedList是链式存储的线性表，实质是双向链表，实现了List和Deque接口。Deque代表双端队列，既可以当做队列也可以当作栈。
LinkedList是List接口的双向链表非同步实现，并允许包括null在内的所有元素。
底层的数据结构是基于双向链表的，该数据结构我们称为节点
双向链表节点对应的类Entry的实例，Entry中包含成员变量：previous，next，element。其中，previous是该节点的上一个节点，next是该节点的下一个节点，element是该节点所包含的值。
HashMap实现原理要点概括

参考文献

HashMap是基于哈希表的Map接口的非同步实现，允许使用null值和null键，但不保证映射的顺序。
底层使用数组实现，数组中每一项是个链表，即数组和链表的结合体
HashMap在底层将key-value当成一个整体进行处理，这个整体就是一个Entry对象。HashMap底层采用一个Entry[]数组来保存所有的key-value对，当需要存储一个Entry对象时，会根据key的hash算法来决定其在数组中的存储位置，在根据equals方法决定其在该数组位置上的链表中的存储位置；当需要取出一个Entry时，也会根据key的hash算法找到其在数组中的存储位置，再根据equals方法从该位置上的链表中取出该Entry。
HashMap进行数组扩容需要重新计算扩容后每个元素在数组中的位置，很耗性能
采用了Fail-Fast机制，通过一个modCount值记录修改次数，对HashMap内容的修改都将增加这个值。迭代器初始化过程中会将这个值赋给迭代器的expectedModCount，在迭代过程中，判断modCount跟expectedModCount是否相等，如果不相等就表示已经有其他线程修改了Map，马上抛出异常

HashMap有两个参数影响其性能：初始容量和加载因子。默认初始容量是16，加载因子是0.75。容量是哈希表中桶(Entry数组)的数量，初始容量只是哈希表在创建时的容量。加载因子是哈希表在其容量自动增加之前可以达到多满的一种尺度。当哈希表中的条目数超出了加载因子与当前容量的乘积时，通过调用 rehash 方法将容量翻倍。
也就是说最多能放16*0.75=12个元素，当put第13个时，HashMap将发生rehash，rehash的一系列处理比较影响性能，所以当我们需要向HashMap存放较多元素时，最好指定合适的初始容量和加载因子，否则HashMap默认只能存12个元素，将会发生多次rehash操作。

无论你的HashMap(x)中的x设置为多少，HashMap的大小都是2^n。2^n是大于x的第一个数。如果x=100，那么HashMap的初始大小应该是128.但是100/128=0.78，已经超过默认加载因子的大小了。因此会resize一次，变成256。所以最好的结果还是256。

hash生成算法可能产生：哈希碰撞ddos漏洞，使得系统崩溃

哈希碰撞漏洞参考
Hashtable实现原理要点概括

参考文献

Hashtable是基于哈希表的Map接口的同步实现，不允许使用null值和null键
底层使用数组实现，数组中每一项是个单链表，即数组和链表的结合体
Hashtable在底层将key-value当成一个整体进行处理，这个整体就是一个Entry对象。Hashtable底层采用一个Entry[]数组来保存所有的key-value对，当需要存储一个Entry对象时，会根据key的hash算法来决定其在数组中的存储位置，在根据equals方法决定其在该数组位置上的链表中的存储位置；当需要取出一个Entry时，也会根据key的hash算法找到其在数组中的存储位置，再根据equals方法从该位置上的链表中取出该Entry。
ConcurrentHashMap实现原理要点概括

参考文献

ConcurrentHashMap允许多个修改操作并发进行，其关键在于使用了锁分离技术。
它使用了多个锁来控制对hash表的不同段进行的修改，每个段其实就是一个小的hashtable，它们有自己的锁。只要多个并发发生在不同的段上，它们就可以并发进行。
ConcurrentHashMap在底层将key-value当成一个整体进行处理，这个整体就是一个Entry对象。Hashtable底层采用一个Entry[]数组来保存所有的key-value对，当需要存储一个Entry对象时，会根据key的hash算法来决定其在数组中的存储位置，在根据equals方法决定其在该数组位置上的链表中的存储位置；当需要取出一个Entry时，也会根据key的hash算法找到其在数组中的存储位置，再根据equals方法从该位置上的链表中取出该Entry。
与HashMap不同的是，ConcurrentHashMap使用多个子Hash表，也就是段(Segment)
ConcurrentHashMap完全允许多个读操作并发进行，读操作并不需要加锁。如果使用传统的技术，如HashMap中的实现，如果允许可以在hash链的中间添加或删除元素，读操作不加锁将得到不一致的数据。ConcurrentHashMap实现技术是保证HashEntry几乎是不可变的。
HashSet实现原理要点概括

参考文献

HashSet由哈希表(实际上是一个HashMap实例)支持，不保证set的迭代顺序，并允许使用null元素。
基于HashMap实现，API也是对HashMap的行为进行了封装，可参考HashMap
LinkedHashMap实现原理要点概括

参考文献

LinkedHashMap继承于HashMap，底层使用哈希表和双向链表来保存所有元素，并且它是非同步，允许使用null值和null键。
基本操作与父类HashMap相似，通过重写HashMap相关方法，重新定义了数组中保存的元素Entry，来实现自己的链接列表特性。该Entry除了保存当前对象的引用外，还保存了其上一个元素before和下一个元素after的引用，从而构成了双向链接列表。
LinkedHashSet实现原理要点概括

参考文献

对于LinkedHashSet而言，它继承与HashSet、又基于LinkedHashMap来实现的。LinkedHashSet底层使用LinkedHashMap来保存所有元素，它继承与HashSet，其所有的方法操作上又与HashSet相同。
HashMap和HashSet原理
HashMap底层是用数组链表存储的，元素是Entry。向HashMap添加<Key,Value>时，由key的hashcode决定Entry存储位置，当两个Entry对象的key的hashcode相同时，由key的equals()方法返回值决定采用覆盖行为（返回true），还是在链表头添加新的Entry（返回false）。Collection values(),返回集合对象，但不能添加元素，主要是用来遍历。自定义类如果放入HashMap或HashSet中，需要重写equals和hashcode方法。
TreeMap和TreeSet原理
TreeMap底层是用红黑树来存储，每个Entry对应树的一个节点，TreeMap元素默认从小到大排序。V put(Key k, Value v)实质是二叉排序树的插入算法

HashMap 在JDK1.7和1.8中的区别

参考文献

JDK1.7中
使用一个Entry数组来存储数据，用key的hashcode取模来决定key会被放到数组里的位置，如果hashcode相同，或者hashcode取模后的结果相同（hash collision），那么这些key会被定位到Entry数组的同一个格子里，这些key会形成一个链表。
在hashcode特别差的情况下，比方说所有key的hashcode都相同，这个链表可能会很长，那么put/get操作都可能需要遍历这个链表
也就是说时间复杂度在最差情况下会退化到O(n)
JDK1.8中
使用一个Node数组来存储数据，但这个Node可能是链表结构，也可能是红黑树结构
如果插入的key的hashcode相同，那么这些key也会被定位到Node数组的同一个格子里。
如果同一个格子里的key不超过8个，使用链表结构存储。
如果超过了8个，那么会调用treeifyBin函数，将链表转换为红黑树。
那么即使hashcode完全相同，由于红黑树的特点，查找某个特定元素，也只需要O(log n)的开销也就是说put/get的操作的时间复杂度最差只有O(log n)

真正想要利用JDK1.8的好处，有一个限制：
key的对象，必须正确的实现了Compare接口
如果没有实现Compare接口，或者实现得不正确（比方说所有Compare方法都返回0）
那JDK1.8的HashMap其实还是慢于JDK1.7的

以上是关于Java集合类总结的主要内容，如果未能解决你的问题，请参考以下文章

Java集合类总结

集合总结（全是代码）----------java基础学习

Java集合框架--Collections工具类的使用 & Java集合框架总结

201621123054《Java程序设计》第九周学习总结

201621123048《Java程序设计》第九周学习总结

201621123037 《Java程序设计》第9周学习总结