快速了解与学会数据清洗——python
Posted 码丽莲梦露
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了快速了解与学会数据清洗——python相关的知识,希望对你有一定的参考价值。
1 数据分析流程
(1)确定数据分析的目的
(2)获取数据
(3)清洗数据:理顺杂乱的原始数据,并修正数据中的错误,这一步比较繁杂,但是确定整个分析的基石
(4)探索数据:为后续选择何种方法分析数据作准备
(5)建模分析:机器学习、深度学习这些
(6)结果交流:可视化
2 数据清洗的流程
(1)数据的读写
pd.read_csv("文件路径")
pd.read_excel("文件路径")
(2)数据的探索与描述
df.info()
df.describe()
(3)数据简单处理
去掉数据间的空格
英文字母大小写的转换
(4)重复值的处理
duplicated()
drop_duplicates()
(5)缺失值的处理
删除缺失值
均值填补法
向前填充/向后填充
模型填补法,如随机森林等
(6)异常值的处理
删除异常值的记录
作为缺失值处理
平均值修正、盖帽法
不处理:业务分析挖掘价值
(7)文本字符串空格处理
去除前后空格处理
处理中间由,()之类的数据:replace(','," ")
正则表达式提取所需的数据
(8)时间格式序列的处理
将系统时间格式化
系统时间和时间戳相互转换
年月日的提取
案例
续
以上是关于快速了解与学会数据清洗——python的主要内容,如果未能解决你的问题,请参考以下文章
hive 的日志处理统计网站的 PV UV案例 与 给合 python的数据清洗数据案例
Python数据清洗之csv Reader zip匹配与组装