数据探索性分析案例实现(EDA)之钻石数据分析

Posted 01xx10

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据探索性分析案例实现(EDA)之钻石数据分析相关的知识,希望对你有一定的参考价值。

一、数据集及其分析

diamonds数据框包含5万余行,有10列属性,对应钻石的一些参数值。

 

carat:克拉(钻石或其他宝石的重量单位,等于200毫克)

 

cut:切; 割,由低到高依次为Fair(恰当的), Good(好的), Very Good(非常好), Premium(优质的), Ideal(完美的)

 

color:颜色,无色钻石的颜色从无色到浅黄色分为D~Z共23个等级,其中以D等级的无色钻石颜色最好

 

clarity:钻石的纯净度,目前钻石纯净度等级有六大类别,分别是fl、if、vvs、vs、si、i,然后又被细分为十一个等级标准,分别是fl,if,vvs1,vvs2,vs1,vs2,si1,si2,i1,i2,i3。(从高到低)

 

depth:钻石全深百分比,圆钻的全深百分比是将全深(厚度)除以最小与最大直径的平均数,即为钻石厚度与直径的百分比。

 

table:钻石台宽比,根据美国宝石学院现行对钻石切磨分级的建议,台面依其大小可分为下列四种类型:

  小型台面:53%至60%

  中型台面:61%至64%

  大型台面:65%至70%

  超大型台面:71%或以上。

 

price:钻石的价格

 

x,y,z:分别代表了钻石的长,宽,高

 

二、问题提出

1.价格与钻石重量的关系

2.价格与钻石切割品质的关系

3.价格与钻石纯净度的关系

4.价格与钻石全深百分比的关系

5.价格与钻石台宽比的关系

 

三、数据清洗和预处理

1.读取展示数据

 

 

 2.缺失值统计

 

 

 没有缺失值,故无需填补删除缺失。

去除重复项

 

 

 

 

 

 

 

 

四、各变量相关性数据分析与可视化

1.运用Dtale库进行数据分析与可视化

 

 

 

2.汉化

 

 

 

 

 

 

3.描述

 

 

 

4.直方图

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

与价格有关的折线图

 

 

 

 

 

 

 

 

 

 

 

 

与价格相关的柱状图

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

与价格相关的散点图

 

 

 

 

 

 

 

 

 

与价格相关的饼状图

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

与价格相关的词云图

 

 

 

 

 

 

 

 

 

五、主要结论

1.价格与钻石重量的关系

 

 

 钻石越重价格越高

 

2.价格与钻石切割品质的关系

 

 钻石切割越好价格越高

 

 

 

 

3.价格与钻石纯净度的关系

 

 

 钻石越纯净价格越高

 

4.价格与钻石全深百分比的关系

 

 

 钻石全深百分比在64%左右价格高

 

5.价格与钻石台宽比的关系

 

 

 台宽比在54%左右价格高

 

以上是关于数据探索性分析案例实现(EDA)之钻石数据分析的主要内容,如果未能解决你的问题,请参考以下文章

什么是探索性数据分析EDA(Exploratory Data Analysis)?,探索性数据分析EDA(Exploratory Data Analysis)对机器学习有是意义?探索性数据分析EDA详

YYDS!几行Python代码,就实现了全面自动探索性数据分析

YYDS!几行Python代码,就实现了全面自动探索性数据分析

区区几行代码,就能全面实现 Python 自动探索性数据分析

R语言DataExplorer包:促进探索性数据分析(EDA)

探索性数据分析(Exploratory Data Analysis,EDA)