pandas

Posted evan0925

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pandas相关的知识,希望对你有一定的参考价值。

三大对象

1.DataFrame(index,  columns ,values)

  1)先从文件(excel,csv,mysql)中读取,或者自己制造一个DataFrame对象

  2)查看数据

    查看数据的形状(几行几列)

    查看每一列的数据类型,数据中是否有空值(行、列),查看每一列和标签的关系(离散-柱状图,连续-密度图或者子状图),两列之间的相关度,查看整个的数据分布(最小,最大,均值,标准差等)目的之一是找出异常值。

  3)清洗数据

    删除

      列(如序号列)、行、空值的列(如:一列中绝大多少是空值)

    替换

      空值(一列中极少数空值,替换方法许多,如均值(连续型如年龄),众数(离散型,如性别),线性差值等),去掉空格/特殊字符,数据类型转换,列名,索引名

  4)整理

      排序:列的值,索引

      修改结构:列变成索引

      分组:索引,列

        注意:分组要做数据统计   (透视表-pivot-table、 交叉表)

      应用函数

        列

  5)数据合并

    多个DateFrame 按照不同的轴合并

  6)数据统计

    count,sum,max,min  mean

  7)可视化

    

  

2.Series

3.Panel

以上是关于pandas的主要内容,如果未能解决你的问题,请参考以下文章

PandasPandas Daframe 常用用法

pandaspandas.to_datatime()---时间格式转换

pandaspandas.Series.str.split()---字符串分割

PandasPandas处理Csv和Excel数据详解

PandasPandas处理Csv和Excel数据详解

PandasPandas处理Csv和Excel数据详解