python数据探索

Posted 冷幽篁

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python数据探索相关的知识,希望对你有一定的参考价值。

 

数据质量分析 
脏数据包括:缺失值;异常值;不一致的值;重复数据及含有特殊符号的数据; 
1.缺失值处理 
统计缺失率,缺失数 
2.异常值处理 
(1)简单统计量分析 
(2)3Q原则 
正态分布情况下,小概率事件为异常值 
不服从正太分布的,可以用原离平均值多少倍标准差来分析 
(3)箱线图分析 
使用describe()描述

 

主要数据探索函数 
1.Pandas常用函数总结

 

导入数据

 

导出数据

查看、检查数据

数据选取

数据清理

    dataframe处理NAN值

    data_3=data_3.where(data_3.notnull(),0)

   dataframe类型转换

    data_3[\'Var5\']=data_3[\'Var5\'].astype(float)

数据处理:Filter 、Sort 和 GroupBy

 
查看具体有哪几个值
ids = [1,4,3,3,4,2,3,4,5,6,1]
news_ids = list(set(ids))
news_ids.sort(ids.index)

 

数据合并、数据统计 

2.拓展统计特征函数

累计统计特征函数

  • cumsum :依次给出前1-n个数的和
  • cumprod: 依次给出前1-n个数的积
  • cummax: 依次给出前1-n个数的最大值
  • cummin: 依次给出前1-n个数的最小值
  • rolling_sum(): 总和(按列)
  • rolling_mean(): 算数平均值
  • rolling_var(): 方差
  • rolling_std(): 标准差
  • rolling_corr(): 相关系数矩阵
  • rolling_cov(): 协方差矩阵
  • rolling_skew():偏度(三阶矩)
  • rolling_kurt(): 峰度(四阶矩)

 

以上是关于python数据探索的主要内容,如果未能解决你的问题,请参考以下文章

YYDS!几行Python代码,就实现了全面自动探索性数据分析

YYDS!几行Python代码,就实现了全面自动探索性数据分析

区区几行代码,就能全面实现 Python 自动探索性数据分析

Sweetviz:让你只需三行代码实现Python探索性数据分析

DOM探索之基础详解——学习笔记

python flask(多对多表查询)