用pandas_profiling快速探索数据,算不算EDA(Exploratory Data Analysis)首选工具

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用pandas_profiling快速探索数据,算不算EDA(Exploratory Data Analysis)首选工具相关的知识,希望对你有一定的参考价值。

参考技术A

拿到数据进行分析之前,应该对数据进行探索,所谓的 探索性数据分析(EDA: Exploratory Data Analysis) ,了解数据集的变量类型、大致分布、异常值、缺失值……等等等等。

pandas-profiling官方文档 中的安装方法如下:

不过在本人的机器上出了点小插曲。安装成功后提示错误,无法导入pandas_profiling包。

安装成功后,使用很简单,直接df.profile_report()就行了。以Kaggle上的 ASHRAE 建筑能耗预测 中的数据集为例,本文题图即为building_metadata.csv中的数据快照。

有时候会遇到 Error rendering Jupyter widget: missing widget manager 的报错。

pandas_profiling探索报告示例:

其它的命令参数还包括如结果保存为JSON文件、传入字典指定直方图的bins等分数量;对于大数据集指定 minimal=True 使不进行耗时的相关系数计算等。更详细的信息大家可参阅 pandas-profiling官方文档 。

以上是关于用pandas_profiling快速探索数据,算不算EDA(Exploratory Data Analysis)首选工具的主要内容,如果未能解决你的问题,请参考以下文章

Pandas系列(十七)-EDA(pandas-profiling)

爱啦爱啦,这三款最频繁使用的 Python 数据探索分析神器真香啊

Pandas数据探索分析,分享两个神器

数据概览神器pandas_profiling

探索(数学)(矩阵快速幂)(快速乘)

小女孩把快速幂奥秘探索出来了!