特征工程-EDA(Exploratory Data Analysis)

Posted z1141000271

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了特征工程-EDA(Exploratory Data Analysis)相关的知识,希望对你有一定的参考价值。

定义

  探索性数据分析(Exploratory Data Analysis,EDA)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。一般有以下几个目的:

  • 弄清楚数据的含义
  • 发现数据的结构
  • 锁定一些重要的特征
  • 异常值以及离群数据的检测(类别极致不平衡以及方差很小)
  • 结合行业背景选择合适的模型

常用方法

  • 绘图方法

    1. 对原始数据绘图

    2. 绘制原始数据的一些统计学图(箱型图、小提琴图、直方图等)

    3. 多特征对比性绘图(查看不同的特征之间的关系)

  • 量化方法

    1. 计算偏度和锋度

    2. 区间估计

    3. 分类类型

 

绘图方法

    技术图片

 

   技术图片

 

   技术图片

 

   技术图片

 

     技术图片

 

量化方法:

  • 相关性分析

      先定义三类变量:

      1. 定类变量: 通过该变量可以进行分类,但是该变量没有实际的数值意义(例如性别,城市)。

      2. 定序变量: 不仅可以用来分类,还按某种规律排序,不同的定序变量可以比较大小,有排序的能力,但是之间的差值没有意义(例如消费能力,教育程度)。

      3. 定距变量: 可以比较大小,差值具有意义。(常见的连续变量,例如价格、购买数量)

      不同类型的方法相关性检测的方法是不同的:

      技术图片   

  • 独立性分析

    利用MVtest检验两个变量是否相关。

    技术图片

 

   (mv test 待补)

 

 

 

 

   

以上是关于特征工程-EDA(Exploratory Data Analysis)的主要内容,如果未能解决你的问题,请参考以下文章

什么是探索性数据分析EDA(Exploratory Data Analysis)?,探索性数据分析EDA(Exploratory Data Analysis)对机器学习有是意义?探索性数据分析EDA详

R探索新数据分析(Exploratory Data Analysis,EDA)

Python 探索性数据分析(Exploratory Data Analysis,EDA)

探索性数据分析(Exploratory Data Analysis,EDA)

python进行探索性数据分析EDA(Exploratory Data Analysis)分析

用pandas_profiling快速探索数据,算不算EDA(Exploratory Data Analysis)首选工具