用pandas_profiling快速探索数据,算不算EDA(Exploratory Data Analysis)首选工具
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用pandas_profiling快速探索数据,算不算EDA(Exploratory Data Analysis)首选工具相关的知识,希望对你有一定的参考价值。
参考技术A 拿到数据进行分析之前,应该对数据进行探索,所谓的 探索性数据分析(EDA: Exploratory Data Analysis) ,了解数据集的变量类型、大致分布、异常值、缺失值……等等等等。
pandas-profiling官方文档 中的安装方法如下:
不过在本人的机器上出了点小插曲。安装成功后提示错误,无法导入pandas_profiling包。
安装成功后,使用很简单,直接df.profile_report()就行了。以Kaggle上的 ASHRAE 建筑能耗预测 中的数据集为例,本文题图即为building_metadata.csv中的数据快照。
有时候会遇到 Error rendering Jupyter widget: missing widget manager 的报错。
pandas_profiling探索报告示例:
其它的命令参数还包括如结果保存为JSON文件、传入字典指定直方图的bins等分数量;对于大数据集指定 minimal=True 使不进行耗时的相关系数计算等。更详细的信息大家可参阅 pandas-profiling官方文档 。
以上是关于用pandas_profiling快速探索数据,算不算EDA(Exploratory Data Analysis)首选工具的主要内容,如果未能解决你的问题,请参考以下文章
Pandas系列(十七)-EDA(pandas-profiling)