安利一个超好用的 Pandas 数据挖掘分析神器

Posted 2022-01-07 AI科技大本营

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了安利一个超好用的 Pandas 数据挖掘分析神器相关的知识，希望对你有一定的参考价值。

作者 |欣一

来源 |Python爱好者集中营

今天小编继续来给大家介绍一款用于做EDA(探索性数据分析)的利器，并且可以自动生成代码，帮助大家极大节省工作时间与提升工作效率的利器，叫做Bamboolib。

大家可以将其理解为是Pandas的GUI扩展工具，所具备的功能有

查看DataFrame数据集与Series数据集
过滤数据
数据的统计分析
绘制交互式图表
文本数据的操作
数据清洗与类型转换
合并数据集

安装模块

在使用之前，我们先需要通过pip install进行该模块的安装

pip install bamboolib

同时因为我们要在Jupyter Notebook以及JupyterLab上面用到该工具，因此还要安装额外的插件

# Jupyter Notebook extensions
python -m bamboolib install_nbextensions

# JupyterLab extensions
python -m bamboolib install_labextensions

查看DataFrame数据集

在上面的步骤全都完成之后，我们开始简单的来尝试使用一下bamboolib，导入我们需要用到的模块

import bamboolib as bam
import pandas as pd

读取数据

df = pd.read_excel(
    io="supermarkt_sales.xlsx",
    engine="openpyxl",
    sheet_name="Sales",
    skiprows=3,
    usecols="B:R",
    nrows=1000,
)

df

会弹出如下所示的界面，

我们先来简单介绍一下界面上的各个按钮，

Explore DataFrame：对数据集进行探索性分析的按钮
Create plot: 绘制交互性图表的按钮
Search Transformations：包含对数据集进行各项操作
Update: 过滤出指定的列
Export: 可以将处理完的数据集以及代码导出

我们点击Explore DataFrame按钮来对数据先来一个大致的印象

我们看到会对数据集有一个大致的介绍，例如数据集是有1000行、18列，然后每一列的数据类型、每一列有多少的唯一值和缺失值我们都可以直观的看到

要是我们想要查看有着连续型变量的特征，它们之间的相关性，可以点击Correlation Matrix按钮

过滤数据

要是我们想要指定某一列数据的话，点击下拉框，选中select or drop columns，

或者我们想要删掉某一列的话，也是相类似的操作

当然我们如果想要根据特定的条件来过滤出某些数据的话，则是选中filter rows按钮，然后我们给出特定的条件，在Bamboolib模块当中有多种方式来过滤数据，有has values、contains、startswith、endswith等等，类似于Pandas模块当中对于文本数据处理的方法，例如我们想要挑选出“省份”这一列当中的“浙江省”的数据，就这么来做