Python处理EXCEL--pandas导入Excel文件
Posted 铁盒薄荷糖
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python处理EXCEL--pandas导入Excel文件相关的知识,希望对你有一定的参考价值。
本文使用的是Python集成运行环境 Anaconda
0.前期准备
安装好Anaconda后,到你的“终端”(Linux, macOS)或者“命令提示符”(Windows)下面,
执行以下命令:
conda install pandas
conda install xlrd
下载完成后,执行
jupyter notebook
进入 jupyter notebook
1.导入excel
1.1 利用pandas中的read_excel()函数读取excel内容
read_excel()函数能够读取的格式包含:xls, xlsx, xlsm, xlsb, odf, ods 和 odt 文件扩展名。支持读取单一sheet或几个sheet。
import pandas as pd
rd=pd.read_excel(r"C:\\Users\\whw\\Desktop\\文件名.xlsx","Sheet1",header=0)
结果如下图所示:
1.2 下面详细了解一下read_excel()函数
read_excel默认参数
def read_excel(io,
#io为必填,文件类对象,即读取文件的路径,其余可选
sheet_name=0,
header=0,
names=None,
index_col=None,
parse_cols=None,
usecols=None,
squeeze=False,
dtype=None,
engine=None,
converters=None,
true_values=None,
false_values=None,
skiprows=None,
nrows=None,
na_values=None,
keep_default_na=True,
na_filter=True,
verbose=False,
parse_dates=False,
date_parser=None,
thousands=None,
comment=None,
skip_footer=0,
skipfooter=0,
convert_float=True,
mangle_dupe_cols=True,
**kwds)
1.2.1 io
io为文件类对象,一般作为读取文件的路径:
rd=pd.read_excel(r"C:\\Users\\whw\\Desktop\\products.xlsx")
1.2.2 sheet_name
该参数为指定读取excel的表格名,两种方式:
(1)直接写入sheet名
rd=pd.read_excel(r"C:\\Users\\whw\\Desktop\\products.xlsx","Sheet名",header=0)
(2)参数默认从0开始,即若想读第2张表则将参数改为1即可
rd=pd.read_excel(r"C:\\Users\\whw\\Desktop\\products.xlsx",sheet_name=0,header=0)
1.2.3 header
该参数为指定列表中从第几行作为列索引/列名(默认为值为0)
1.2.4 names
此参数接收一个数组,将列名重定义赋值:
excel=pd.read_excel("products.xlsx",names=['ID','Name','1','2','3'])
1.2.5 index_col
此参数为指定从第几列开始索引(即将第几列选择为第一列进行索引),默认为0(0基)
1.2.6 usecols
该参数为返回指定的列,
usecols="A,C:E" #返回excel中的A列,C到E列,也可以传入列表usecols=[0,2],或者usecols=[“ID”,"name"]这种形式
excel=pd.read_excel(r"r"C:\\Users\\whw\\Desktop\\文件名.xlsx",usecols="A,C:D")
1.2.7 parse_cols
指定需要解析的字段,自0.21.0版后不推荐使用:改为使用usecols。
1.2.8 squeeze
若待处理的excel数据仅有一列时,此时设定为True将转换为Series
1.2.9 dtype
指定读取列的数据类型,可接收字典。
1.2.10 engine
该参数为指定Excel处理引擎
可以接受的参数有“ xlrd”,“ openpyxl”或“ odf”,用于使用第三方的库去解析excel文件。
- engine=xlrd 支持较旧格式(.xls)
- engine=openpyxl 支持较新的格式
- engine=odf 支持OpenDocument电子文档 (.odf, .ods, .odt)
- engine=pyxlsb 支持二进制表格 (.xlsb)
- engine = None 自动根据格式选择 默认。
- 注: 可以考虑用xlrd读取,用openpyxl写入。但是xlrd对.xlsx文件的支持不太好,可能还需要用老版本才行。
excel=pd.read_excel(r"r"C:\\Users\\whw\\Desktop\\文件名.xlsx",engine='xlrd')
1.2.11 converters
指定列数据类型转换函数,包括了dtype的功能,也可以对某一列使用Lambda函数,进行某种运算
1.2.12 nrows
指定需要读取前多少行,通常用于较大的数据文件中。
1.2.13 date_parser
处理日期类数据,可以将日期类字段组合成日期格式。
parse_dates="日期" : [0,1,2] # "新列名" : [指定列/字段]
D-Tale,实现 Pandas GUI 高效数据探索分析
作者 | Python大数据分析
来源 | Python大数据分析
想必很多人都用过Pandas来处理数据,作为Python数据科学领域的顶级库,Pandas确实有着强大的数据处理能力。特别是结合Jupyter Notebook平台,简直可以称作编程里的Excel。
Pandas是代码工具,不能像Excel那样通过软件界面操作,有时候也给数据探索带来小小的困扰。
比如说,你想简单看下数据集的结构、描述统计结果、可视化图表等等,如果能绕开代码,直接通过GUI界面来操作,会更加方便。
D-Tale就可以完美实现上述功能,作为Pandas生态的辅助GUI工具,能读取DataFrame数据,供使用者进行探索分析。
D-Tale是 Flask 后端和 React 前端的组合,提供了简洁的GUI分析界面。它可以在PyCharm、Jupyter、命令行中打开,其功能包括筛选、排序、高亮、拼接、数据转换、描述统计、可视化等等。
尤其是可视化能力,D-Tale可以像Power BI那样实现拖拉拽的图表制作,而且提供了很多图表类型,包括折线图、柱状图、直方图、饼图、热力图、三维图、词云图、地图等等。
如果你经常使用Pandas进行数据分析,那么便可以试试D-Tale,它通过pip进行安装,非常简单。
pip install dtale
安装好后,导入D-Tale中的show()
方法,通过show()
就可以读取DataFrame数据,激活GUI分析界面。
该GUI界面提供了多种数据工具,可以在菜单中进行选择使用。
你可以对数据集进行筛选、排序、隐藏、调整大小等操作:
还可以查看数据集的描述性统计结果:
分析数据的缺失值情况:
对数据集进行热力图展示:
进行多元化的图表分析:
还可以制作有向图:
如果你想导出数据集,D-Tale能很方便地实现:
总的来说,D-Tale是一款Pandas辅助工具,可以高效地进行探索性分析。但D-Tale并不能替代Pandas来处理数据,因为它的功能还是有限的。
D-Tale Github地址:
https://github.com/man-group/dtale
往期回顾
分享
点收藏
点点赞
点在看
以上是关于Python处理EXCEL--pandas导入Excel文件的主要内容,如果未能解决你的问题,请参考以下文章