快速了解与学会数据清洗——python

Posted 码丽莲梦露

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了快速了解与学会数据清洗——python相关的知识,希望对你有一定的参考价值。

  1 数据分析流程

(1)确定数据分析的目的

(2)获取数据

(3)清洗数据:理顺杂乱的原始数据,并修正数据中的错误,这一步比较繁杂,但是确定整个分析的基石

(4)探索数据:为后续选择何种方法分析数据作准备

(5)建模分析:机器学习、深度学习这些

(6)结果交流:可视化

2 数据清洗的流程

(1)数据的读写

pd.read_csv("文件路径")

pd.read_excel("文件路径")

(2)数据的探索与描述

df.info()

df.describe()

(3)数据简单处理

去掉数据间的空格

英文字母大小写的转换

(4)重复值的处理

duplicated()

drop_duplicates()

(5)缺失值的处理

删除缺失值

均值填补法

向前填充/向后填充

模型填补法,如随机森林等

(6)异常值的处理

删除异常值的记录

作为缺失值处理

平均值修正、盖帽法

不处理:业务分析挖掘价值

(7)文本字符串空格处理

去除前后空格处理

处理中间由,()之类的数据:replace(','," ")

正则表达式提取所需的数据

(8)时间格式序列的处理

将系统时间格式化

系统时间和时间戳相互转换

年月日的提取

案例

以上是关于快速了解与学会数据清洗——python的主要内容,如果未能解决你的问题,请参考以下文章

python数据分析学习数据清洗与准备

hive 的日志处理统计网站的 PV UV案例 与 给合 python的数据清洗数据案例

Python数据清洗之csv Reader zip匹配与组装

快速获取最新股票相关数据,并使用数据分析进行数据清洗,获取有效信息

数据清洗

文摘:DataFrame数据清洗