Python处理EXCEL--pandas导入Excel文件

Posted 铁盒薄荷糖

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python处理EXCEL--pandas导入Excel文件相关的知识,希望对你有一定的参考价值。

本文使用的是Python集成运行环境 Anaconda

0.前期准备

安装好Anaconda后,到你的“终端”(Linux, macOS)或者“命令提示符”(Windows)下面,

执行以下命令:

conda install pandas
conda install xlrd

下载完成后,执行

jupyter notebook

进入 jupyter notebook

1.导入excel

1.1 利用pandas中的read_excel()函数读取excel内容

read_excel()函数能够读取的格式包含:xls, xlsx, xlsm, xlsb, odf, ods 和 odt 文件扩展名。支持读取单一sheet或几个sheet。

import pandas as pd
rd=pd.read_excel(r"C:\\Users\\whw\\Desktop\\文件名.xlsx","Sheet1",header=0)

结果如下图所示:

 1.2 下面详细了解一下read_excel()函数

read_excel默认参数

def read_excel(io,                  
               #io为必填,文件类对象,即读取文件的路径,其余可选
               sheet_name=0,  
               header=0,
               names=None,
               index_col=None,
               parse_cols=None,
               usecols=None,
               squeeze=False,
               dtype=None,
               engine=None,
               converters=None,
               true_values=None,
               false_values=None,
               skiprows=None,
               nrows=None,
               na_values=None,
               keep_default_na=True,
               na_filter=True,
               verbose=False,
               parse_dates=False,
               date_parser=None,
               thousands=None,
               comment=None,
               skip_footer=0,
               skipfooter=0,
               convert_float=True,
               mangle_dupe_cols=True,
               **kwds)

1.2.1 io

io为文件类对象,一般作为读取文件的路径:

rd=pd.read_excel(r"C:\\Users\\whw\\Desktop\\products.xlsx")

1.2.2 sheet_name

该参数为指定读取excel的表格名,两种方式:

(1)直接写入sheet名

rd=pd.read_excel(r"C:\\Users\\whw\\Desktop\\products.xlsx","Sheet名",header=0)

(2)参数默认从0开始,即若想读第2张表则将参数改为1即可

rd=pd.read_excel(r"C:\\Users\\whw\\Desktop\\products.xlsx",sheet_name=0,header=0)

1.2.3 header

该参数为指定列表中从第几行作为列索引/列名(默认为值为0)

1.2.4 names

此参数接收一个数组,将列名重定义赋值:

excel=pd.read_excel("products.xlsx",names=['ID','Name','1','2','3'])

1.2.5 index_col

此参数为指定从第几列开始索引(即将第几列选择为第一列进行索引),默认为0(0基)

1.2.6 usecols

该参数为返回指定的列,

usecols="A,C:E"  #返回excel中的A列,C到E列,也可以传入列表usecols=[0,2],或者usecols=[“ID”,"name"]这种形式

excel=pd.read_excel(r"r"C:\\Users\\whw\\Desktop\\文件名.xlsx",usecols="A,C:D")

1.2.7 parse_cols

指定需要解析的字段,自0.21.0版后不推荐使用:改为使用usecols。

1.2.8 squeeze

若待处理的excel数据仅有一列时,此时设定为True将转换为Series

1.2.9 dtype

指定读取列的数据类型,可接收字典。

1.2.10 engine

该参数为指定Excel处理引擎

可以接受的参数有“ xlrd”,“ openpyxl”或“ odf”,用于使用第三方的库去解析excel文件。

  • engine=xlrd 支持较旧格式(.xls)
  • engine=openpyxl 支持较新的格式
  • engine=odf 支持OpenDocument电子文档 (.odf, .ods, .odt)
  • engine=pyxlsb 支持二进制表格 (.xlsb)
  • engine = None 自动根据格式选择 默认。
  • 注: 可以考虑用xlrd读取,用openpyxl写入。但是xlrd对.xlsx文件的支持不太好,可能还需要用老版本才行。
excel=pd.read_excel(r"r"C:\\Users\\whw\\Desktop\\文件名.xlsx",engine='xlrd')

1.2.11 converters

指定列数据类型转换函数,包括了dtype的功能,也可以对某一列使用Lambda函数,进行某种运算

1.2.12 nrows

指定需要读取前多少行,通常用于较大的数据文件中。

1.2.13 date_parser

处理日期类数据,可以将日期类字段组合成日期格式。

parse_dates="日期" : [0,1,2]      # "新列名" : [指定列/字段]

D-Tale,实现 Pandas GUI 高效数据探索分析

作者 | Python大数据分析

来源 | Python大数据分析

想必很多人都用过Pandas来处理数据,作为Python数据科学领域的顶级库,Pandas确实有着强大的数据处理能力。特别是结合Jupyter Notebook平台,简直可以称作编程里的Excel。

Pandas是代码工具,不能像Excel那样通过软件界面操作,有时候也给数据探索带来小小的困扰。

比如说,你想简单看下数据集的结构、描述统计结果、可视化图表等等,如果能绕开代码,直接通过GUI界面来操作,会更加方便。

D-Tale就可以完美实现上述功能,作为Pandas生态的辅助GUI工具,能读取DataFrame数据,供使用者进行探索分析。

D-Tale是 Flask 后端和 React 前端的组合,提供了简洁的GUI分析界面。它可以在PyCharm、Jupyter、命令行中打开,其功能包括筛选、排序、高亮、拼接、数据转换、描述统计、可视化等等。

尤其是可视化能力,D-Tale可以像Power BI那样实现拖拉拽的图表制作,而且提供了很多图表类型,包括折线图、柱状图、直方图、饼图、热力图、三维图、词云图、地图等等。

如果你经常使用Pandas进行数据分析,那么便可以试试D-Tale,它通过pip进行安装,非常简单。

pip install dtale

安装好后,导入D-Tale中的show()方法,通过show()就可以读取DataFrame数据,激活GUI分析界面。

该GUI界面提供了多种数据工具,可以在菜单中进行选择使用。

你可以对数据集进行筛选、排序、隐藏、调整大小等操作:

还可以查看数据集的描述性统计结果:

分析数据的缺失值情况:

对数据集进行热力图展示:

进行多元化的图表分析:

还可以制作有向图:

如果你想导出数据集,D-Tale能很方便地实现:

总的来说,D-Tale是一款Pandas辅助工具,可以高效地进行探索性分析。但D-Tale并不能替代Pandas来处理数据,因为它的功能还是有限的。

D-Tale Github地址:

https://github.com/man-group/dtale


 

往期回顾

太卷了!AI 高数考试正确率81%

AI 世界里,挖掘机生产哪家强?

2D变身3D,来看英伟达的AI“新”魔法!

如何用 Python 实现景区安防系统?

分享
点收藏
点点赞
点在看

以上是关于Python处理EXCEL--pandas导入Excel文件的主要内容,如果未能解决你的问题,请参考以下文章

Pandas数据结构和基本功能

Python openpyxlpandas操作Excel方法简介与具体实例

使用 Python 将多个 CSV 导入 HDF5

为啥在c中嵌入python时不能导入'math'库?

Pandas操作excel

斯坦福机器学习ex1.1(python)