数据分析—Pandas 中的分组聚合Groupby 高阶操作

Posted 2023-02-28

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了数据分析—Pandas 中的分组聚合Groupby 高阶操作相关的知识，希望对你有一定的参考价值。

参考技术A Pandas 的 groupby() 功能很强大，用好了可以方便的解决很多问题，在数据处理以及日常工作中经常能施展拳脚。

这篇文章适合有pandas基础的同学阅读，更多的会解释调用.mean()时发生了什么，及更多高阶用法。今天，我们一起来领略下 groupby() 的魅力吧。

分组聚合是对数据集进行分类，并在每一组上应用聚合函数或转换函数。如下图理解更清晰：

首先，引入相关 package ：

经常用 groupby 对 pandas 中 dataframe 的各列进行统计，包括求和、求均值等。

我们测试一下，将df数据集填充几个NaN。数据最终如下图：

下面是count（）和size（）的对比

上面运算的结果分析：'group1':'A', 'group2':'C' 的组合共出现3次，即 index为 0,1,2。对应 "B" 列的值分别是 "one","NaN","NaN"，由于 count() 计数时不包括NaN值，因此 'group1':'A', 'group2':'C' 的 count 计数值为 1 。

transform() 方法会将该计数值在 dataframe 中所有涉及的 rows 都显示出来（我理解应该就进行广播）

（a）bins=4

（b）bins=[19, 40, 65, np.inf]

在对数据进行分段分组时，可采用cut方法，用bins的方式实现。这种情况一般使用于，对于年龄、分数等数据。

看到这里，你已经很棒啦，这篇文章总结了分组聚合函数的一些干货技巧，码字不易，记得点赞关注呀❤

希望本文的内容对大家的学习或者工作能带来一定的帮助，每天进步一点点，加油~

以上是关于数据分析—Pandas 中的分组聚合Groupby 高阶操作的主要内容，如果未能解决你的问题，请参考以下文章