Python - 熊猫,分组和最大计数

Posted

技术标签:

【中文标题】Python - 熊猫,分组和最大计数【英文标题】:Python - pandas, group by and max count 【发布时间】:2022-01-12 06:35:50 【问题描述】:

我需要来自 column cluster-2 的 column cluster-1 中最相似的(最大计数)。

输入 - 数据

输出 - 数据

我使用命令:df.groupby(['cluster-1','cluster-2'])['cluster-2'].count() 这个命令会给我计数列 cluster-2 中的每次出现。我需要关于如何进行的建议,谢谢。

【问题讨论】:

【参考方案1】:

使用SeriesGroupBy.value_counts,因为默认情况下已排序值,因此可以通过MultiIndex.to_frameMultiIndex 转换为DataFrame,然后通过cluster-1DataFrame.drop_duplicates 中删除重复项:

df1 = (df.groupby(['cluster-1'])['cluster-2']
         .value_counts()
         .index
         .to_frame(index=False)
         .drop_duplicates('cluster-1'))

【讨论】:

你能告诉我更多关于其他输出的信息吗?谢谢。 @PatrikNovotný - 是否可以创建像文本一样的示例数据? 我编辑了问题,还有输出2。我也需要这个输出,谢谢。

以上是关于Python - 熊猫,分组和最大计数的主要内容,如果未能解决你的问题,请参考以下文章

熊猫,分组和计数

熊猫数据框列的分组和计数

熊猫在一列上分组,另一列上的最大日期python

熊猫计数分组值[重复]

按连续计数 Pandas Python 分组 [关闭]

当日期不唯一时,在熊猫中按日期分组后计数观察值