学习pandas 笔记摘要 pandas

Posted Aric Zeng

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了学习pandas 笔记摘要 pandas相关的知识,希望对你有一定的参考价值。

本文来源于《利用python进行数据分析》中文版,大家有兴趣可以看原版,入门的东西得脚踏实地哈

1、pandas 数据结构介绍

首先熟悉它的两个主要数据结构,Series 和 DataFrame

Series 是一种类似于一维数组的对象,它由一组数据以及一组与之相关的数据标签组成。

obj = pd.Series([4, 7, -5, 3])

obj
Out[4]: 
0    4
1    7
2   -5
3    3
dtype: int64

Series字符串表现形成为:索引在左,值在右,可以通过Series的values和index属性获取其数组表示形式和索引对象

obj.values
Out[5]: array([ 4,  7, -5,  3], dtype=int64)
obj.index
Out[6]: RangeIndex(start=0, stop=4, step=1)

对各个数据点进行标记索引

obj2 = pd.Series([4, 7], index =[d, b])

obj2
Out[8]: 
d    4
b    7
dtype: int64

Numpy数组运算会保留索引和值之间的链接

还可以将Series看成是一个定长的有序字典,因为它是索引值到数据值的一个映射。

如果数据被存入在一个python字典中,也可以直接通过这个字典来创建Series

sdata = {name1: tom, name2: Jerry}

obj3 = pd.Series(sdata)

obj3
Out[11]: 
name1      tom
name2    Jerry
dtype: object

如果只传入一个字典,则结果Series中的索引就是原字典的键(有序排列)

states = [‘name1‘, ‘name2‘, ‘name3‘]

obj4 = pd.Series(sdata, index = states)

obj4
Out[17]:
name1      tom
name2    Jerry
name3      NaN
dtype: object
#注意找不到是直接变为NaN

pandas 的isnull 和 notnull 函数可用于检测缺失数据

对于许多应用而言, Series最重要的一个功能是:它在算术运算中会自动对齐不同索引的数据。

Series的索引可以通过赋值的方式就地修改

==========================================================================================

DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同中的值类型(数值、字符串、布尔值等)。DataFrame即有行索引也有列索引,它可以被看做由Series

组成的字典(共用同一索引)。DataFrame中面向行和列的操作基本上是平衡的。其实DataFrame中的数据是以一个或多个二维块存放的,而不是列表、字典或别的一维数据结构。

注意:虽然DataFrame是以二维结构保存数据的,但你仍然可以轻松地将其表示为更高维度的数据,层次 化索引的表格型结构,这是pandas中许多高级数据处理功能的关键要素

 

以上是关于学习pandas 笔记摘要 pandas的主要内容,如果未能解决你的问题,请参考以下文章

pandas学习笔记D2

Pandas学习笔记

Pandas学习速成笔记

Pandas学习速成笔记

学习笔记 Python - Pandas

Python Panda - 学习笔记