在 DataFrame.groupby 的情况下,如何根据另一列的最大值获取列的值
Posted
技术标签:
【中文标题】在 DataFrame.groupby 的情况下,如何根据另一列的最大值获取列的值【英文标题】:How to get value of a column based on the maximum of another column in case of DataFrame.groupby 【发布时间】:2018-08-22 03:18:57 【问题描述】:我有一个看起来像这样的数据框。
id YearReleased Artist count
168 2015 Muse 1
169 2015 Rihanna 3
170 2015 Taylor Swift 2
171 2016 Jennifer Lopez 1
172 2016 Rihanna 3
173 2016 Underworld 1
174 2017 Coldplay 1
175 2017 Ed Sheeran 2
我想获取每年的最大计数,然后获取相应的艺术家姓名。
类似这样的:
发行年份艺术家
2015 蕾哈娜 2016 蕾哈娜 2017 艾德希兰
我尝试使用循环遍历数据框的行并创建另一个字典,其中键为年份,值为艺术家。但是当我尝试将该字典转换为数据框时,键被映射到列而不是行。
有人可以指导我采用更好的方法来解决这个问题,而不必遍历数据框,而是使用一些内置的 pandas 方法来实现这一点吗?
【问题讨论】:
【参考方案1】:您可以使用groupby 和transform:
idx = df.groupby(['YearReleased'])['count'].transform(max) == df['count']
然后使用这个索引器:
df[idx]
Out[14]:
id YearReleased Artist count
1 169 2015 Rihanna 3
4 172 2016 Rihanna 3
7 175 2017 Ed Sheeran 2
【讨论】:
【参考方案2】:看idxmax
df.loc[df.groupby('YearReleased')['count'].idxmax()]
Out[445]:
id YearReleased Artist count
1 169 2015 Rihanna 3
4 172 2016 Rihanna 3
7 175 2017 EdSheeran 2
【讨论】:
@JeetBanerjee yw :-) 快乐编码以上是关于在 DataFrame.groupby 的情况下,如何根据另一列的最大值获取列的值的主要内容,如果未能解决你的问题,请参考以下文章
Python 中 dataframe.groupby按多条件分组怎么做?
将 concurrent.futures.ProcessPoolExecutor 与 DataFrame.GroupBy 一起使用
具有聚合唯一值的pyspark dataframe groupby [重复]