excel 大文件解析原理实现

Posted yg_zhang

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了excel 大文件解析原理实现相关的知识,希望对你有一定的参考价值。

 

 

问题

目前的excel 不像之前的excel了可以支持的数据量更大,可以支持支持1048576行,16384列。

之前使用poi读取,直接报错,使用excel 事件的方式读取,还有不少的bug,关键是程序写的很复杂。

 

解决方案

我们知道excel 文件实际上是一个压缩包来的,我们将excel 直接改名为rar或zip文件。

技术图片

我们可以将文件解压出来。

技术图片

我们可以看到excel 实际上是一堆xml文件的集合。

技术图片

worksheets 中实际存了 这个excel的sheets数据。

技术图片

但是excel 在存数据的时候,他会将字符串数据存在在sharedString.xml 文件中。

sharedString.xml 文件数据如下:

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<sst
    xmlns="http://schemas.openxmlformats.org/spreadsheetml/2006/main" count="6" uniqueCount="4">
    <si>
        <t>guangzhou</t>
    </si>
    <si>
        <t>beijing</t>
    </si>
    <si>
        <t>hujun</t>
    </si>
    <si>
        <t>c</t>
    </si>
</sst>

这个数据存放了字符串的数据。

我们看xml文件可以得知。

技术图片

 

 这里0,1,2,3 存的是 sharedString.xml 字符串的下标。

数字和日期型数据是直接存放在sheets 数据中的。

日期型数据的存储有些特殊

技术图片

比如这个 他的日期实际是 2019-5-29日,这个是怎么计算的呢,他实际是从1900-0-0 开始加上43614天。

因此 明白了excel的结构 ,我们就很容易去实现读excel的代码,可以绕开poi哪些api。

直接读取xml。

 

实现思路

1.将文件解压。

2.读取sharedString.xml 将数据读取到list列表。

3.读取sheet.xml文件数据,遍历这个数据,将字符串的数据,去上面的列表中查找,其他类型的数据直接在sheet.xml 中读取。

 

以上是关于excel 大文件解析原理实现的主要内容,如果未能解决你的问题,请参考以下文章

JXL包大解析;Java程序生成excel文件和解析excel文件内容

几行代码就能实现复杂的 Excel 导入导出,这个工具类真心强大!

node.js解析excel大文件的问题

Unity升级版·Excel数据解析,自动创建对应C#类,自动创建ScriptableObject生成类,自动序列化Asset文件

HBase原理-数据读取流程解析

Java POI实现excel大数据量下载