pandas入门

Posted elonjiang

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pandas入门相关的知识,希望对你有一定的参考价值。

5.2 基本功能

(1)重新索引 - 方法reindex

方法reindex是pandas对象地一个重要方法,其作用是:创建一个新对象,它地数据符合新地索引。

 如,对下面的Series数据按新索引进行重排:

技术图片

 

根据新索引重排后的结果如下,当某个索引值不存在,就会在原来的基础上引入缺失值NaN:

技术图片

 

利用reindex的method选项,实现插值处理。尤其对于时间序列这样的有序数据,会经常用到该选项。

如,使用 ffill 实现 前向值 填充:

技术图片

 

技术图片

 

利用DataFrame,reindex修改(行)索引和列。(只传递一个序列时,会重新索引结果的行):

技术图片

 

利用columns关键字,对列进行重新索引:

技术图片

 

reindex 函数的参数:

技术图片

 

 

(2)丢弃指定轴上的项 - 方法 .drop

丢弃某条轴上的一个或多个项,只要由一个索引数组或列表即可。

drop方法,返回的时一个在指定轴上删除了指定值的对象:

对于Series:

技术图片

 

对于DataFrame(可删除任意轴上的索引值):

先创建如下DataFrame例子:

技术图片

 

用标签序列调用drop,会从行标签(axis 0)删除值:

技术图片

 

通过传递axis=1或axis=‘columns‘可删除列的值:

技术图片

 

Ps:如果想就地修改对象,可使用inplace参数(谨慎使用inplace,该参数会彻底删除被删除的数据!)

  技术图片

 

  

(3)索引、选取和过滤

Series索引,其索引值可以是整数(单个、多个,或整数切片),也可以是具体的单个、多个index值,也可以是布尔类型条件。

1)创建Series示例:

技术图片

 

具体的例子如下:

技术图片

 

Ps:利用标签的切片运算与普通的Python切片运算不同,其末端是包含的!

  技术图片

 

用切片可对Series的相应部分进行设置:

技术图片

2)DataFrame示例

 

 

(4)用loc和iloc进行选取

 

(5)整数索引

 

(6)算术运算和数据对齐

 

(7)在算术方法中填充值

 

(8)DataFrame和Series之间的运算

 

(9)函数应用和映射

 

(10)排序和排名

 

(11)带有重复标签的轴索引

 

5.3 汇总和计算描述统计

 

(1)相关系数和协方差

(2)唯一值、值计数以及成员资格

 

下期预告:讨论用pandas读取(或加载)和写入数据集的工具。

之后,更深入地研究使用pandas进行数据清洗、规整、分析和可视化工具

 

以上是关于pandas入门的主要内容,如果未能解决你的问题,请参考以下文章

Pandas高级数据分析快速入门之五——机器学习特征工程篇

Pandas高级数据分析快速入门之四——数据可视化篇

Pandas高级数据分析快速入门之一——Python开发环境篇

Pandas高级数据分析快速入门之六——机器学习预测分析篇

Pandas高级数据分析快速入门之三——数据挖掘与统计分析篇

Python数据分析pandas入门------十分钟入门pandas