探索性数据分析(单因子&对比)与可视化

Posted cheryol

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了探索性数据分析(单因子&对比)与可视化相关的知识,希望对你有一定的参考价值。

1、理论铺垫

 DataframeSeries均适用

  ~集中趋势:均值mean()、中位数median()、与分位数quantile(q=0.25)、众数mode()

  ~离中趋势:标准差std()、方差var()

   数据分布:偏态skew()与峰态kurt()、正态分布与三大分布
技术图片正偏态(mean>median)

  import scipy.stats as ss

     正态分布:ss.norm 、卡方分布:ss.chi2t分布:ss.chi2f分布:ss.chi2
  偏态系数:数据平均值偏离状态的衡量
  
峰态系数:数据分布集中强度的衡量

       ~ 抽样定理:抽样误差、抽样精度

   data.sample(10)  #10

        data.sample(frac = 0.001)  #抽样百分比为0.001


2、数据分类


·         定类(类别):根据事物离散、无差别属性进行的分类,如:名族


·         定序(顺序):可以界定数据的大小,但不能测定差值:如:收入的低、中、高


·         定距(间隔):可以界定数据大小的同时,可测定差值,但无绝对零点,如:温度


·         定比(比率):可以界定数据大小,可测定差值,有绝对零点,如:身高、体重

3、单属性分析

3.1异常值分析

  离散异常值,连续异常值,常识异常值

 技术图片

3.2对比分析

  绝对数与相对数(比什么),时间、空间、经验与计划(如何比)

    绝对数比较:绝对的数字的比较,例如:收入

    相对数比较:将几个有联系的指标进联合,构成一个新的数

3.3结构分析

  各组成部分的分布与规律

 技术图片

3.4分布分析

  数据分布频率的显式分析

技术图片

其中seaborn是matplotlib的封装

Seaborn官网: http://seaborn.pydata.org/api.html

 

1)柱状图:以纵轴表示数值大小

sns.set_style(style="darkgrid")#style="whitegrid"
sns.set_context(context="poster",font_scale=0.5)
sns.set_palette(sns.color_palette(‘Reds‘))

plt.title(‘SALARY‘)
plt.xlabel(‘salary‘)
plt.ylabel(‘number‘)
#设置横轴的显示
plt.xticks(0.5+np.arange(len(data[‘salary‘].value_counts())),data[‘salary‘].value_counts().index)
#设置横轴显示的最小值是0,最大是4;纵轴显示的最小值是0,最大值是10000
plt.axis([0,4,0,10000])
plt.bar(0.5+np.arange(len(data[‘salary‘].value_counts())),data[‘salary‘].value_counts(),width=0.5)
for x,y in zip(0.5+np.arange(len(data[‘salary‘].value_counts())),data[‘salary‘].value_counts()):
    plt.text(x,y,y,ha="center",va="bottom")#对每一类进行标注,标注的值为y,水平位置是center,垂直位置是bottom
plt.show()


# sns.countplot(x="salary",data=data)
sns.countplot(x="salary",hue= "department",data=data)#多层绘制,例如以部门为分割
plt.show()

技术图片技术图片

 

以上是关于探索性数据分析(单因子&对比)与可视化的主要内容,如果未能解决你的问题,请参考以下文章

Python数据分析理论与实战完整版本

Python数据分析理论与实战完整版本

Python数据分析理论与实战完整版本

spss验证性因子分析是信度分析吗

Metabase——开源的大数据分析探索可视化报表神器

Metabase——开源的大数据分析探索可视化报表神器