Python - 熊猫,分组和最大计数
Posted
技术标签:
【中文标题】Python - 熊猫,分组和最大计数【英文标题】:Python - pandas, group by and max count 【发布时间】:2022-01-12 06:35:50 【问题描述】:我需要来自 column cluster-2 的 column cluster-1 中最相似的(最大计数)。
输入 - 数据
输出 - 数据
我使用命令:df.groupby(['cluster-1','cluster-2'])['cluster-2'].count() 这个命令会给我计数列 cluster-2 中的每次出现。我需要关于如何进行的建议,谢谢。
【问题讨论】:
【参考方案1】:使用SeriesGroupBy.value_counts
,因为默认情况下已排序值,因此可以通过MultiIndex.to_frame
将MultiIndex
转换为DataFrame
,然后通过cluster-1
在DataFrame.drop_duplicates
中删除重复项:
df1 = (df.groupby(['cluster-1'])['cluster-2']
.value_counts()
.index
.to_frame(index=False)
.drop_duplicates('cluster-1'))
【讨论】:
你能告诉我更多关于其他输出的信息吗?谢谢。 @PatrikNovotný - 是否可以创建像文本一样的示例数据? 我编辑了问题,还有输出2。我也需要这个输出,谢谢。以上是关于Python - 熊猫,分组和最大计数的主要内容,如果未能解决你的问题,请参考以下文章