Excel中3个workbook区别

Posted dalianpai

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Excel中3个workbook区别相关的知识,希望对你有一定的参考价值。

第一种:HSSFWorkbook

poi导出excel最常用的方式;但是此种方式的局限就是导出的行数至多为65535行,超出65536条后系统就会报错。此方式因为行数不足七万行所以一般不会发生内存不足的情况(OOM)。

第二种:XSSFWorkbook

这种形式的出现是为了突破HSSFWorkbook的65535行局限。其对应的是excel2007(1048576行,16384列)扩展名为“.xlsx”,最多可以导出104万行,不过这样就伴随着一个问题---OOM内存溢出,原因是你所创建的book sheet row cell等此时是存在内存的并没有持久化。

第三种:SXSSFWorkbook

从POI 3.8版本开始,提供了一种基于XSSF的低内存占用的SXSSF方式。对于大型excel文件的创建,一个关键问题就是,要确保不会内存溢出。其实,就算生成很小的excel(比如几Mb),它用掉的内存是远大于excel文件实际的size的。如果单元格还有各种格式(比如,加粗,背景标红之类的),那它占用的内存就更多了。对于大型excel的创建且不会内存溢出的,就只有SXSSFWorkbook了。它的原理很简单,用硬盘空间换内存(就像hash map用空间换时间一样)。

SXSSFWorkbook是streaming版本的XSSFWorkbook,它只会保存最新的excel rows在内存里供查看,在此之前的excel rows都会被写入到硬盘里(Windows电脑的话,是写入到C盘根目录下的temp文件夹)。被写入到硬盘里的rows是不可见的/不可访问的。只有还保存在内存里的才可以被访问到。

HSSFWorkbook:只能操作excel2003,扩展名是.xls;

XSSFWorkbook:可以操作excel 2007+   虽然可以操作大量数据,但实际操作时会出问题,    问题原因是创建对象过多,而这些对象都在内存中,所以可能导致溢出,扩展名是.xlsx;

SXSSFWorkbook:它是在XSSFWorkbook基础上进行优化,它的原理是首先设置一个内存中对象的数量值,默认为100个对象,当内存中所产生的对象数超出规定的限制时,就会将这些对象写入到临时的xml文件中,此时内存中的这些对象就可以销毁了,以后不断这样进行,扩展名是.xlsx;

SXSSFWorkbook缺点分析

  • 不能使用模板打印了。 
  • 在写磁盘过程中消耗的IO操作时间过多,会导致内存中又产生很多对象,但是原来的对象还没有完整写入磁盘中。

 技术图片

 测试结果:

技术图片

通过测试证明,我们可以SXSSFWorkbook来实现百万数据的导出,实际所消耗的时间是很少的。只要将技术很好的结合在一起,比如jdbc,oracle,SXSSFWorkbook,Thread结合一起就可以很好的实现百万数据的POI。

以上是关于Excel中3个workbook区别的主要内容,如果未能解决你的问题,请参考以下文章

EXCEL工作表,当前工作簿中的“Workbook_Open”在哪里?

如何用Workbooks.Open打开Excel工作簿,如何操作?

python用openpyxl读写Excel

nodejs读取xlsx文件

openpyxl方法记录

open与load_workbook的区别