Pandas数据探索分析,分享两个神器
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Pandas数据探索分析,分享两个神器相关的知识,希望对你有一定的参考价值。
参考技术A 在使用 pandas 进行数据分析时,进行一定的数据 探索 性分析(EDA)是必不可少的一个步骤,例如常见统计指标计算、缺失值、重复值统计等。使用 df.describe 等函数进行 探索 当然是常见操作,但若要进行更完整、详细的分析缺则略显不足。
本文就将分享两个用于数据 探索 的 pandas 插件。
首先要介绍的是 pandas_profiling ,它扩展了 pandas DataFrame 的功能,这也是在之前多篇文章中提到的插件。
只需使用 pip install pandas_profiling 即可安装,在导入数据之后使用 df.profile_report 一行命令即可快速生成描述性分析报告
可以看到,除了之前我们需要的一些描述性统计数据,该报告还包含以下信息:
进一步我们还以将该报告保存为 html 格式,方便后续的查看,感兴趣的读者可以自行尝试。
第二个值得一用的是 sweetviz ,同样是一个开源 Python 库,可生成美观、高密度的可视化,只需两行代码即可启动 EDA 。
该插件围绕快速可视化目标值和比较数据集而构建。它的目标是帮助快速分析目标特征、训练与测试数据以及其他此类数据特征任务。
安装方法同上,执行 pip install sweetviz 即可。使用方法也是类似,导入数据后只需两行代码即可输出分析报告
和 pandas_profiling 不一样的是,现在我们只能得到一个 html 文件,打开即可看到相关 EDA 报告
可以看到,自动生成的报告主要有以下几个部分
从上面的介绍我们也能看出,两个 EDA 的插件侧重点有所不同,我们在实际使用时也应该根据数据特征与分析目标灵活使用!
推荐 3 个Pandas数据探索分析神器
大家好,EDA是数据分析必须的过程,用来查看变量统计特征,可以此为基础尝试做特征工程。
这次我分享3个EDA神器,其实之前每一个都分享过,这次把这三个工具包汇总到一起来介绍。 喜欢本文点赞、收藏、关注。
⚠️注:文末提供技术交流群
推荐文章
1. Pandas_Profiling
这个属于三个中最轻便、简单的了。它可以快速生成报告,一览变量概况。首先,我们需要安装该软件包。
# 安装Jupyter扩展widget
jupyter nbextension enable --py widgetsnbextension
# 或者通过conda安装
conda env create -n pandas-profiling
conda activate pandas-profiling
conda install -c conda-forge pandas-profiling
# 或者直接从源地址安装
pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip
安装成功后即可导入数据直接生成报告了。
import pandas as pd
import seaborn as sns
mpg = sns.load_dataset('mpg')
mpg.head()
from pandas_profiling import ProfileReport
profile = ProfileReport(mpg, title='MPG Pandas Profiling Report', explorative = True)
profile
使用Pandas Profiling生成了一个快速的报告,具有很好的可视化效果。报告结果直接显示在notebook中,而不是在单独的文件中打开。
总共提供了六个部分:概述、变量、交互、相关性,缺失值和样本。
Pandas profiling的变量部分是完整的,它为每个变量都生成了详细的报告。
从上图可以看出,仅一个变量就有太多信息,比如可以获得描述性信息和分位数信息。
交互
交互部分我们可以获取两个数值变量之间的散点图。
相关性
可以获得两个变量之间的关系信息。
缺失值
可以获取每个变量的缺失值计数信息。
样本
可以显示了数据集中的样本行,用于了解数据。
2. Sweetviz
Sweetviz是另一个Python的开源代码包,仅用一行代码即可生成漂亮的EDA报告。与Pandas Profiling的区别在于它输出的是一个完全独立的HTML应用程序。
使用pip安装该软件包
pip install sweetviz
安装完成后,我们可以使用Sweetviz生成报告,下面尝试一下。
import sweetviz as sv
# 可以选择目标特征
my_report = sv.analyze(mpg, target_feat ='mpg')
my_report.show_html()
从上图可以看到,Sweetviz报告生成的内容与之前的Pandas Profiling类似,但具有不同的UI。
Sweetviz不仅可以查看单变量的分布、统计特性,它还可以设置目标标量,将变量和目标变量进行关联分析。如上面报告最右侧,它获得了所有现有变量的数值关联和类别关联的相关性信息。
Sweetviz的优势不在于单个数据集上的EDA报告,而在于数据集的比较。
可以通过两种方式比较数据集:将其拆分(例如训练和测试数据集),或者使用一些过滤器对总体进行细分。
比如下面这个例子,有USA和NOT-USA两个数据集。
# 设置需要分析的变量
my_report = sv.compare_intra(mpg,mpg [“ origin”] ==“ usa”,[“ USA”,“ NOT-USA”],target_feat ='mpg')
my_report.show_html()
不需要敲太多的代码就可以让我们快速分析这些变量,这在EDA环节会减少很多工作量,而把时间留给变量的分析和筛选上。
Sweetviz的一些优势在于:
-
分析有关目标值的数据集的能力
-
两个数据集之间的比较能力
但也有一些缺点:
-
变量之间没有可视化,例如散点图
-
报告在另一个标签中打开
个人是比较喜欢Sweetviz的。
3. pandasGUI
PandasGUI与前面的两个不同,PandasGUI不会生成报告,而是生成一个GUI(图形用户界面)的数据框,我们可以使用它来更详细地分析我们的Dataframe。
首先,安装PandasGUI。
# pip安装
pip install pandasgui
# 或者通过源下载
pip install git+https://github.com/adamerose/pandasgui.git
然后,运行几行代码试一下。
from pandasgui import show
# 部署GUI的数据集
gui = show(mpg)
在此GUI中,可以做很多事情,比如过滤、统计信息、在变量之间创建图表、以及重塑数据。这些操作可以根据需求拖动选项卡来完成。
比如像下面这个统计信息。
最牛X的就是绘图器功能了。用它进行拖拽操作简直和excel没有啥区别了,操作难度和门槛几乎为零。
还可以通过创建新的数据透视表或者融合数据集来进行重塑。
然后,处理好的数据集可以直接导出成csv。
pandasGUI的一些优势在于:
-
可以拖拽
-
快速过滤数据
-
快速绘图
缺点在于:
-
没有完整的统计信息
-
不能生成报告
4. 结论
Pandas Profiling、Sweetviz和PandasGUI都很不错,旨在简化我们的EDA处理。在不同的工作流程中,每个都有自己的优势和适用性,三个工具具体优势如下:
-
Pandas Profiling 适用于快速生成单个变量的分析。
-
Sweetviz 适用于数据集之间和目标变量之间的分析。
-
PandasGUI适用于具有手动拖放功能的深度分析。
技术交流
欢迎转载、收藏、有所收获点赞支持一下!
目前开通了技术交流群,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友
- 方式①、发送如下图片至微信,长按识别,后台回复:加群;
- 方式②、添加微信号:dkl88191,备注:来自CSDN
- 方式③、微信搜索公众号:Python学习与数据挖掘,后台回复:加群
以上是关于Pandas数据探索分析,分享两个神器的主要内容,如果未能解决你的问题,请参考以下文章