Python基本的数据清洗
Posted 夏尔酱
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python基本的数据清洗相关的知识,希望对你有一定的参考价值。
接触Python两年多了,还从来没有独立用Python完成一个项目,说来惭愧。最近因为工作需要,用Excel和oracle整理数据貌似不可行了,于是转向Python,理所当然的踩了很多坑,一一记录下来,避免以后再次入坑,毕竟不常用,好了伤疤就会忘了疼···
业务场景:
领导拿来几个Excel,共150W条保险数据,需要按照特定规则筛选出满足条件的数据。
字段:业务机构、保单号、案件号、被保险人、代码1、标的车号、VIN码、驾驶员、电话、出险时间、出险经过、维修企业、定损金额、三者车号、三者VIN、三者驾驶员、代码2、三者维修企业、查勘定损人员;
150W条数据没有唯一标识字段:同一个案件号对应一个标的车号、0-多个三者车号,一个标的车号对应一个或多个保单号,所以需要通过标的车号、保单号、报案号三个字段唯一确定一条理赔记录。
筛选规则:
电话频率大于等于3次(1年内);车架号(标的及三者大于等于3次(1年内;驾驶员姓名(标的及三者)大于等于3次(1年内),标的与三者维修单位为同一修配厂的;同一车号或是车架号在10日内出险两次的;出险时间在21:00~6:00的案件,做风险标识。
给到的数据,有以下几个问题:
- 部分记录数据不完整,整体缺失率较低
- 部分字段信息录入错误,比如,电话字段中出现字符、时间字段中出现11位数字(疑似电话信息)
- 有重复数据
- Excel数据表列名不一致
问题总结:
这就是一个简单的数据筛选工作!
但是刚好工作不忙,刚好也想拿数据练练手,于是就开始操练起来了~
动手之前,要通过各种途径对数据进行全方位的了解,否则,浪费时间!
通过向数据来源方询问变量之间的关系、通过常识判断各变量的取值特性、通过探索性分析了解各变量的缺失/取值情况、结果导向分析数据清洗过程中可能会遇到的问题。
问题分解:
- 数据存储在多个Excel表格中,将这些数据读到一个变量中
- 按筛选条件整理数据
- 输出筛选数据
代码部分,我要放到另一篇文章里面~
以上是关于Python基本的数据清洗的主要内容,如果未能解决你的问题,请参考以下文章