如何管理 Pandas 中的重复行 [重复]
Posted
技术标签:
【中文标题】如何管理 Pandas 中的重复行 [重复]【英文标题】:How do I manage repeting rows in Pandas [duplicate] 【发布时间】:2020-10-04 02:26:27 【问题描述】:如何通过删除重复元素来组织这个三列数据集。
Country Year Temperature
US 1990 25
US 1990 27
US 1990 24
US 1991 26
Canada 1990 20
. . .
进入
Country Year AvgTemp
US 1990 25.33
US 1991 26
Canada 1990 20
我可以使用 groupby 仅对“Year”和“Temp”列执行此操作。但是如果涉及 3 列呢?
(P.S. 我是熊猫新手)
【问题讨论】:
这只是:df.groupby(['Country', 'Year'])['Temperature'].mean()
要将您的预期输出与新列名匹配,请改用命名聚合:df.groupby(['Country', 'Year']).agg(AvgTemp=('Temperature', 'mean')).reset_index()
【参考方案1】:
你可以像这样在 groupby() 中使用多个变量
df.groupby(['Country','Year'])['Temp'].mean().reset_index()
【讨论】:
【参考方案2】:df.groupby(['Country', 'Year']).mean().reset_index().rename(columns='Temperature':'AvgTemp')
【讨论】:
以上是关于如何管理 Pandas 中的重复行 [重复]的主要内容,如果未能解决你的问题,请参考以下文章
Pandas:如何删除重复的行,但保留所有行的最大值[重复]
openoffice calc - 换行导致单元格中的重复值(pandas/openpyxl)
根据条件 pandas 删除 DataFrame 中的重复行
pandas使用drop_duplicates函数基于subset参数指定的数据列子集删除重复行并设置keep参数保留重复行中的最后一个数据行