Python - 熊猫，分组和最大计数

Posted 2023-02-16

技术标签:

【中文标题】Python - 熊猫，分组和最大计数【英文标题】：Python - pandas, group by and max count 【发布时间】：2022-01-12 06:35:50 【问题描述】：

我需要来自 column cluster-2 的 column cluster-1 中最相似的（最大计数）。

输入 - 数据

输出 - 数据

我使用命令：df.groupby(['cluster-1','cluster-2'])['cluster-2'].count() 这个命令会给我计数列 cluster-2 中的每次出现。我需要关于如何进行的建议，谢谢。

【问题讨论】：

【参考方案1】：

使用SeriesGroupBy.value_counts，因为默认情况下已排序值，因此可以通过MultiIndex.to_frame 将MultiIndex 转换为DataFrame，然后通过cluster-1 在DataFrame.drop_duplicates 中删除重复项：

df1 = (df.groupby(['cluster-1'])['cluster-2']
         .value_counts()
         .index
         .to_frame(index=False)
         .drop_duplicates('cluster-1'))

【讨论】：

你能告诉我更多关于其他输出的信息吗？谢谢。 @PatrikNovotný - 是否可以创建像文本一样的示例数据？我编辑了问题，还有输出2。我也需要这个输出，谢谢。

以上是关于Python - 熊猫，分组和最大计数的主要内容，如果未能解决你的问题，请参考以下文章