数据探索性分析案例实现(EDA)之钻石数据分析
Posted 01xx10
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据探索性分析案例实现(EDA)之钻石数据分析相关的知识,希望对你有一定的参考价值。
一、数据集及其分析
diamonds数据框包含5万余行,有10列属性,对应钻石的一些参数值。
carat:克拉(钻石或其他宝石的重量单位,等于200毫克)
cut:切; 割,由低到高依次为Fair(恰当的), Good(好的), Very Good(非常好), Premium(优质的), Ideal(完美的)
color:颜色,无色钻石的颜色从无色到浅黄色分为D~Z共23个等级,其中以D等级的无色钻石颜色最好
clarity:钻石的纯净度,目前钻石纯净度等级有六大类别,分别是fl、if、vvs、vs、si、i,然后又被细分为十一个等级标准,分别是fl,if,vvs1,vvs2,vs1,vs2,si1,si2,i1,i2,i3。(从高到低)
depth:钻石全深百分比,圆钻的全深百分比是将全深(厚度)除以最小与最大直径的平均数,即为钻石厚度与直径的百分比。
table:钻石台宽比,根据美国宝石学院现行对钻石切磨分级的建议,台面依其大小可分为下列四种类型:
小型台面:53%至60%
中型台面:61%至64%
大型台面:65%至70%
超大型台面:71%或以上。
price:钻石的价格
x,y,z:分别代表了钻石的长,宽,高
二、问题提出
1.价格与钻石重量的关系
2.价格与钻石切割品质的关系
3.价格与钻石纯净度的关系
4.价格与钻石全深百分比的关系
5.价格与钻石台宽比的关系
三、数据清洗和预处理
1.读取展示数据
2.缺失值统计
没有缺失值,故无需填补删除缺失。
去除重复项
四、各变量相关性数据分析与可视化
1.运用Dtale库进行数据分析与可视化
2.汉化
3.描述
4.直方图
与价格有关的折线图
与价格相关的柱状图
与价格相关的散点图
与价格相关的饼状图
与价格相关的词云图
五、主要结论
1.价格与钻石重量的关系
钻石越重价格越高
2.价格与钻石切割品质的关系
钻石切割越好价格越高
3.价格与钻石纯净度的关系
钻石越纯净价格越高
4.价格与钻石全深百分比的关系
钻石全深百分比在64%左右价格高
5.价格与钻石台宽比的关系
台宽比在54%左右价格高
以上是关于数据探索性分析案例实现(EDA)之钻石数据分析的主要内容,如果未能解决你的问题,请参考以下文章
什么是探索性数据分析EDA(Exploratory Data Analysis)?,探索性数据分析EDA(Exploratory Data Analysis)对机器学习有是意义?探索性数据分析EDA详
YYDS!几行Python代码,就实现了全面自动探索性数据分析
YYDS!几行Python代码,就实现了全面自动探索性数据分析
区区几行代码,就能全面实现 Python 自动探索性数据分析