Pandas - 分组统计
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Pandas - 分组统计相关的知识,希望对你有一定的参考价值。
参考技术A 首先,导入 pandas 模块,构建一个 DataFrame 结构:上述 DataFrame 包含两个列,分别是 key 和 data :
显然, key 列由 3 种数据组成,分别是 A B C ,下面我们希望分别计算 A B C 三类数据的 data 之和。
df['key'] == key 返回布尔类型的 Series 结构,随后作为布尔索引传入 df.loc[df['key'] == key,'data'] ,上述分组计算结果:
由于分组统计是数据分析中常用的操作,为此 pandas 为我们提供了 groupby 方法,来方便地进行分组,在分组结果上可以应用 sum mean count 等统计计算方法。
分组计算结果:
还可以在分组结果上调用 aggregate 方法以应用 numpy 中的数学统计函数:
下面,我们以泰坦尼克号提供的登船信息数据集为例,进一步感受分组统计的用法。首先,读取数据集:
数据集内容:
分别统计男性乘客和女性乘客年龄的平均值:
分别统计男性乘客和女性乘客获救的比例:
分别统计各等级船舱的价格总和:
以上是关于Pandas - 分组统计的主要内容,如果未能解决你的问题,请参考以下文章
pandas使用groupby函数基于指定分组变量对dataframe数据进行分组使用agg函数计算每个分组不同数值变量的聚合统计值agg参数为字典指定不同变量的聚合计算统计量的形式