DataFrame groupby 2列并计算第三次出现

Posted 2023-02-16

技术标签:

【中文标题】DataFrame groupby 2列并计算第三次出现【英文标题】：DataFrame groupby 2 columns und count occurence in third 【发布时间】：2021-12-30 15:23:17 【问题描述】：

我正在尝试将 DataFrame 按两列分组，并计算第三列中出现的差异。到目前为止我得到的是：

import pandas as pd

df = pd.DataFrame('colA': ['name1', 'name2', 'name2', 'name4', 'name2', 'name5'], 'colB': ['red', 'yellow', 'yellow', 'black', 'yellow', 'green'], 'colC': ['value1', 'vlaue2', 'value2', 'value4', 'value5', 'value6'])

df_grouped = df.groupby(["colA", "colB"])["colC"].count()

print(df_grouped)

输出在哪里：

colA   colB  
name1  red       1
name2  yellow    3
name4  black     1
name5  green     1

我想要做的是，将 colA 和 colB 视为 1 列，并计算（并显示）colC 中不同值的出现。所以在这种情况下应该是：

    colA    colB    colC  count  
0  name1     red  value1  1
1  name2  yellow  vlaue2  2
2                 value5  1
3  name4   black  value4  1
4  name5   green  value6  1

提前致谢。

编辑：我也试过是这样的：

df["colAB"] = df["colA"].map(str) + " " + df["colB"]
df_grouped = df.groupby(["colAB", "colC"])["colC"].count().reset_index(name="count")

但它也没有带来正确的结果。更加具体。我需要的是每个值（colC）以及colA和colB组合出现的频率。即使 colA 和 ColB 有 2 列，两者的组合也是一个不同的值。

【问题讨论】：

【参考方案1】：

如果我理解正确，您只需按 3 列 A、B 和 C 分组：

df_grouped = df.groupby(["colA", "colB","colC"])["colC"].count().reset_index(name="count")

Output :
>
    colA    colB    colC  count
0  name1     red  value1      1
1  name2  yellow  value2      2
2  name2  yellow  value5      1
3  name4   black  value4      1
4  name5   green  value6      1

df_grouped = df.groupby(["colA", "colB","colC"])["colC"].count()

> 
colA   colB    colC  
name1  red     value1    1
name2  yellow  value2    2
               value5    1
name4  black   value4    1
name5  green   value6    1

【讨论】：

感谢您的回答。这可能会奏效。但是，如果 colA 和 ColB 的组合只出现一次并且可以组合在一起，然后只显示不同的 colC，那会更好。在这种情况下索引 1 和 2 因为有很多条目。也许必须再次对结果进行分组？

以上是关于DataFrame groupby 2列并计算第三次出现的主要内容，如果未能解决你的问题，请参考以下文章