【数据分析】:Pandas的函数与功能
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了【数据分析】:Pandas的函数与功能相关的知识,希望对你有一定的参考价值。
参考技术A 【注意】:显示索引选择时,包括最后一个索引。隐式索引则不包括。索引器包括:loc、iloc、ix
[Out]:
[Out]:
【技能提升】:ix 索引器,可以将显示索引和隐式索引混合使用。但是 ix不被新版本支持了,所以作为了解就好。
【】:
任何处于处理Numpy形式数据的方法 ,都可以用于这些索引器。比如:掩码、花式索引;
【】:任何一种取值方法,都可以用于调整数据。
【解释】:
[Out]:
【解释】:
【注释】:
Pandas 采用标签法来表示缺失值,有两种方式:
【注意】:
pandas 将None与NaN看成是可等价交换的,在适当的时候,会将两者进行替换,除此之外,Pandas 会将没有标签值的数据,自动转换成NaN。实例如下:
andas:对不同类型的缺失值的转换规则
【注意】:Pandas 中,字符串使用object类型存储。
关于 【thresh】:通过thresh 设置非缺失值的最小数量(thresh=n:表没有缺失值)
【方法优化】:
将Series | DataFrame 的index参数设置为至少二维的索引数组
Numpy - Pandas - Matplot 功能与函数名 速查
用Python做数据分析,涉及到的函数实在是太多了,容易忘记,去网上查中文基本上差不到,英文有时候描述不清楚问题。
这里搞个针对个人习惯的函数汇总速查手册,下次需要用一个什么功能,就在这里面查到对应的函数名字,然后取搜索具体用法。随时更新。
Numpy
创建:
创建一个随机数组x*y:
np.empty(x,y)
-----------Pandas----------
Series
判断是否是唯一的值:
obj.unique()
统计值:
obj.value_counts()
DataFrame:
根据一个列或者多个列进行排序
frame.sort_values(by=[‘a‘,‘b‘])
删除列/删除行
del frame[‘a‘]
del frame[3]
对整个表应用操作f
frame.apply(f)
对列进行重新排序/重排:
frame.colomns = [‘b‘,‘c‘,‘a‘]
对每列求和
frame.sum()
对每行求和
frame.sum(axis=1)
求累计和,就是加上前几行的数据的总和
frame.cumsum()
求每列最大值的索引
frame.idxmax() 返回索引
frame.argmax() 返回一个整数值
求每行最大值的索引
frame.idxmax(axis=1)
对每一列进行汇总统计(包括 计数/均值/方差/最小值/分位点/最大值)
frame.describe()
缺失数据/缺失处理:
删除缺失数据(NaN):
丢掉数据:dropna
只丢掉全为空的列: data.dropna(axis=1,how=‘all‘)
用指定值填充:fillna
对每个位置判断有无缺失: isnull , notnull
填充缺失数据(NaN):
用指定值填充:
data.fiina(1)
用平均值填充:
data.fillna(data.mean())
以上是关于【数据分析】:Pandas的函数与功能的主要内容,如果未能解决你的问题,请参考以下文章
Numpy - Pandas - Matplot 功能与函数名 速查