如何管理 Pandas 中的重复行 [重复]

Posted

技术标签:

【中文标题】如何管理 Pandas 中的重复行 [重复]【英文标题】:How do I manage repeting rows in Pandas [duplicate] 【发布时间】:2020-10-04 02:26:27 【问题描述】:

如何通过删除重复元素来组织这个三列数据集。

Country       Year      Temperature
US            1990       25
US            1990       27 
US            1990       24
US            1991       26
Canada        1990       20
 .             .          .

进入

Country      Year        AvgTemp
US           1990           25.33
US            1991          26
Canada       1990           20

我可以使用 groupby 仅对“Year”和“Temp”列执行此操作。但是如果涉及 3 列呢?

(P.S. 我是熊猫新手)

【问题讨论】:

这只是:df.groupby(['Country', 'Year'])['Temperature'].mean() 要将您的预期输出与新列名匹配,请改用命名聚合:df.groupby(['Country', 'Year']).agg(AvgTemp=('Temperature', 'mean')).reset_index() 【参考方案1】:

你可以像这样在 groupby() 中使用多个变量

df.groupby(['Country','Year'])['Temp'].mean().reset_index()

【讨论】:

【参考方案2】:
df.groupby(['Country', 'Year']).mean().reset_index().rename(columns='Temperature':'AvgTemp')

【讨论】:

以上是关于如何管理 Pandas 中的重复行 [重复]的主要内容,如果未能解决你的问题,请参考以下文章

Pandas:如何删除重复的行,但保留所有行的最大值[重复]

openoffice calc - 换行导致单元格中的重复值(pandas/openpyxl)

Pandas - 迭代中的重复行

根据条件 pandas 删除 DataFrame 中的重复行

pandas使用drop_duplicates函数基于subset参数指定的数据列子集删除重复行并设置keep参数保留重复行中的最后一个数据行

使用 Pandas 删除 Python 中的多余行 [重复]