pandas
Posted evan0925
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pandas相关的知识,希望对你有一定的参考价值。
三大对象
1.DataFrame(index, columns ,values)
1)先从文件(excel,csv,mysql)中读取,或者自己制造一个DataFrame对象
2)查看数据
查看数据的形状(几行几列)
查看每一列的数据类型,数据中是否有空值(行、列),查看每一列和标签的关系(离散-柱状图,连续-密度图或者子状图),两列之间的相关度,查看整个的数据分布(最小,最大,均值,标准差等)目的之一是找出异常值。
3)清洗数据
删除
列(如序号列)、行、空值的列(如:一列中绝大多少是空值)
替换
空值(一列中极少数空值,替换方法许多,如均值(连续型如年龄),众数(离散型,如性别),线性差值等),去掉空格/特殊字符,数据类型转换,列名,索引名
4)整理
排序:列的值,索引
修改结构:列变成索引
分组:索引,列
注意:分组要做数据统计 (透视表-pivot-table、 交叉表)
应用函数
列
5)数据合并
多个DateFrame 按照不同的轴合并
6)数据统计
count,sum,max,min mean
7)可视化
2.Series
3.Panel
以上是关于pandas的主要内容,如果未能解决你的问题,请参考以下文章
pandaspandas.to_datatime()---时间格式转换