带有 bin 计数的 Pandas groupby

Posted

技术标签:

【中文标题】带有 bin 计数的 Pandas groupby【英文标题】:Pandas groupby with bin counts 【发布时间】:2016-03-22 21:24:28 【问题描述】:

我有一个如下所示的 DataFrame:

+----------+---------+-------+
| username | post_id | views |
+----------+---------+-------+
| john     |       1 |     3 |
| john     |       2 |    23 |
| john     |       3 |    44 |
| john     |       4 |    82 |
| jane     |       7 |     5 |
| jane     |       8 |    25 |
| jane     |       9 |    46 |
| jane     |      10 |    56 |
+----------+---------+-------+

我想将其转换为对属于某些 bin 的视图进行计数,如下所示:

+------+------+-------+-------+--------+
|      | 1-10 | 11-25 | 25-50 | 51-100 |
+------+------+-------+-------+--------+
| john |    1 |     1 |     1 |      1 |
| jane |    1 |     1 |     1 |      1 |
+------+------+-------+-------+--------+

我试过了:

bins = [1, 10, 25, 50, 100]
groups = df.groupby(pd.cut(df.views, bins))
groups.username.count()

但它只提供汇总计数,而不是用户计数。如何按用户获取 bin 计数?

总计数(使用我的真实数据)如下所示:

impressions
(2500, 5000]         2332
(5000, 10000]        1118
(10000, 50000]        570
(50000, 10000000]      14
Name: username, dtype: int64

【问题讨论】:

【参考方案1】:

您可以按 bin 用户名进行分组,计算组大小,然后使用 unstack()

>>> groups = df.groupby(['username', pd.cut(df.views, bins)])
>>> groups.size().unstack()
views     (1, 10]  (10, 25]  (25, 50]  (50, 100]
username
jane            1         1         1          1
john            1         1         1          1

【讨论】:

以上是关于带有 bin 计数的 Pandas groupby的主要内容,如果未能解决你的问题,请参考以下文章

Groupby 值对数据框 pandas 的计数

Groupby 值对数据框 pandas 的计数

Pandas groupby agg - 如何获得计数?

Pandas Groupby:计数和平均值相结合

Groupby并根据Pandas中的多个条件计算计数和均值

具有多列的groupby,在pandas中具有添加和频率计数[重复]