Pandas 读取超过 65536 行的 Excel 文件

Posted zwp-627

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Pandas 读取超过 65536 行的 Excel 文件相关的知识,希望对你有一定的参考价值。

Excel 文件的格式曾经发生过一次变化,在 Excel 2007 以前,使用扩展名为 .xls 格式的文件,这种文件格式是一种特定的二进制格式,最多支持 65,536 行,256 列表格。从 Excel 2007 版开始,默认采用了基于 XML 的新的文件格式 .xlsx ,支持的表格行数达到了 1,048,576,列数达到了 16,384。需要注意的是,将 .xlsx 格式的文件转换为 .xls 格式的文件时,65536 行和 256 列之后的数据都会被丢弃。

 

Pandas 读取 Excel 文件的引擎是 xlrd , xlrd 虽然同时支持 .xlsx 和 .xls 两种文件格式,但是在源码文件 xlrd/sheet.py 中限制了读取的 Excel 文件行数必须小于 65536,列数必须小于 256。

 

这就导致,即使是 .xlsx 格式的文件, xlrd 依然不支持读取 65536 行以上的 Excel 文件

 

openpyxl 是一个专门用来操作 .xlsx 格式文件的 Python 库,和 xlrd 相比它对于最大行列数的支持和 .xlsx 文件所定义的最大行列数一致。

首先安装 openpyxl :

pip install openpyxl

Pandas 的 read_excel 方法中,有 engine 字段,可以指定所使用的处理 Excel 文件的引擎,填入 openpyxl ,再读取文件就可以了。

import pandas as pd

df = pd.read_excel(‘./data.xlsx’, engine=’openpyxl’)

print(len(df))  # 160000

 

原文:https://www.lizenghai.com/archives/29883.html

以上是关于Pandas 读取超过 65536 行的 Excel 文件的主要内容,如果未能解决你的问题,请参考以下文章

pandas

Python Pandas - 读取带有注释标题行的 csv

是否可以在 Excel 2007 中看到超过 65536 行? [关闭]

Pandas:创建一个从 excel 文件中选择行的循环

pandas:使用正则表达式验证数据框单元格

python利用pandas和xlrd读取excel,特征筛选删除0值超过99%的列