【数据分析】:Pandas的函数与功能

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了【数据分析】:Pandas的函数与功能相关的知识,希望对你有一定的参考价值。

参考技术A 【注意】:显示索引选择时,包括最后一个索引。隐式索引则不包括。

索引器包括:loc、iloc、ix

[Out]:

[Out]:

【技能提升】:ix 索引器,可以将显示索引和隐式索引混合使用。但是 ix不被新版本支持了,所以作为了解就好。

【】:
任何处于处理Numpy形式数据的方法 ,都可以用于这些索引器。比如:掩码、花式索引;

【】:任何一种取值方法,都可以用于调整数据。

【解释】:

[Out]:

【解释】:

【注释】:

Pandas 采用标签法来表示缺失值,有两种方式:

【注意】:

pandas 将None与NaN看成是可等价交换的,在适当的时候,会将两者进行替换,除此之外,Pandas 会将没有标签值的数据,自动转换成NaN。实例如下:

andas:对不同类型的缺失值的转换规则

【注意】:Pandas 中,字符串使用object类型存储。

关于 【thresh】:通过thresh 设置非缺失值的最小数量(thresh=n:表没有缺失值)

【方法优化】:

将Series | DataFrame 的index参数设置为至少二维的索引数组

Numpy - Pandas - Matplot 功能与函数名 速查

用Python做数据分析,涉及到的函数实在是太多了,容易忘记,去网上查中文基本上差不到,英文有时候描述不清楚问题。

这里搞个针对个人习惯的函数汇总速查手册,下次需要用一个什么功能,就在这里面查到对应的函数名字,然后取搜索具体用法。随时更新。

 

Numpy

创建:

创建一个随机数组x*y:

np.empty(x,y)

 

 

-----------Pandas----------

Series

判断是否是唯一的值:

obj.unique()

统计值:

obj.value_counts()

 

 

DataFrame:

根据一个列或者多个列进行排序 

frame.sort_values(by=[‘a‘,‘b‘])

删除列/删除行

del frame[‘a‘]

del frame[3]

对整个表应用操作f

frame.apply(f)

对列进行重新排序/重排:

frame.colomns = [‘b‘,‘c‘,‘a‘]

对每列求和

frame.sum()

对每行求和

frame.sum(axis=1)

求累计和,就是加上前几行的数据的总和

frame.cumsum()

求每列最大值的索引

frame.idxmax() 返回索引

frame.argmax() 返回一个整数值 

求每行最大值的索引

frame.idxmax(axis=1)

对每一列进行汇总统计(包括 计数/均值/方差/最小值/分位点/最大值)

frame.describe()

 

缺失数据/缺失处理:

 

删除缺失数据(NaN):

丢掉数据:dropna

只丢掉全为空的列: data.dropna(axis=1,how=‘all‘)

用指定值填充:fillna

对每个位置判断有无缺失: isnull , notnull

 

填充缺失数据(NaN):

用指定值填充:

data.fiina(1) 

用平均值填充:

data.fillna(data.mean())

 

以上是关于【数据分析】:Pandas的函数与功能的主要内容,如果未能解决你的问题,请参考以下文章

Numpy - Pandas - Matplot 功能与函数名 速查

pandas 数据框:loc 与查询性能

Pandas分组统计与时间序列

pandas 小介

Python机器学习数据建模与分析——Numpy和Pandas综合应用案例:空气质量监测数据的预处理和基本分析

这 20 个Pandas 函数, 你可能没试过