groupby取最大值对应的行
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了groupby取最大值对应的行相关的知识,希望对你有一定的参考价值。
参考技术A 对带有时间戳的数据做分组( groupby) 后向想取到每组时间 (或id) 最大的一条1. 其中一种方法是:先groupby 取到最大时间(或id),然后再做left join 此法适用于sql
2. 首先对数据做排序,然后groupby 取到的就是时间(或id) 最大(小) 的一条
3. pandas的做法 原理同2
使用 Pandas 查找列的最大值并返回相应的行值
【中文标题】使用 Pandas 查找列的最大值并返回相应的行值【英文标题】:Find maximum value of a column and return the corresponding row values using Pandas 【发布时间】:2013-03-22 10:16:19 【问题描述】:使用 Python Pandas 我试图找到具有最大值的 Country
和 Place
。
这会返回最大值:
data.groupby(['Country','Place'])['Value'].max()
但是如何获取对应的Country
和Place
名称呢?
【问题讨论】:
这能回答你的问题吗? Find row where values for column is maximal in a pandas DataFrame 【参考方案1】:使用DataFrame.nlargest
。
对此的专用方法是nlargest
,它在后台使用algorithm.SelectNFrame
,这是一种高效的做法:sort_values().head(n)
x y a b
0 1 2 a x
1 2 4 b x
2 3 6 c y
3 4 1 a z
4 5 2 b z
5 6 3 c z
df.nlargest(1, 'y')
x y a b
2 3 6 c y
【讨论】:
【参考方案2】:你可以使用:
print(df[df['Value']==df['Value'].max()])
【讨论】:
【参考方案3】:为了以最大值打印国家和地点,请使用以下代码行。
print(df[['Country', 'Place']][df.Value == df.Value.max()])
【讨论】:
【参考方案4】:导入熊猫 df 是您创建的数据框。
使用命令:
df1=df[['Country','Place']][df.Value == df['Value'].max()]
这将显示最大值的国家和地点。
【讨论】:
【参考方案5】:我在尝试使用 pandas 导入数据时遇到了类似的错误,我的数据集的第一列在单词开头之前有空格。我删除了空格,它就像一个魅力!
【讨论】:
【参考方案6】:我建议使用nlargest
以获得更好的性能和更短的代码。导入pandas
df[col_name].value_counts().nlargest(n=1)
【讨论】:
【参考方案7】:我认为返回具有最大值的行的最简单方法是获取其索引。 argmax()
可用于返回最大值所在行的索引。
index = df.Value.argmax()
现在可以使用索引来获取该特定行的特征:
df.iloc[df.Value.argmax(), 0:2]
【讨论】:
【参考方案8】:我在列中查找最大值的解决方案:
df.ix[df.idxmax()]
,也是最小值:
df.ix[df.idxmin()]
【讨论】:
【参考方案9】:假设df
有一个唯一索引,这将给出具有最大值的行:
In [34]: df.loc[df['Value'].idxmax()]
Out[34]:
Country US
Place Kansas
Value 894
Name: 7
注意idxmax
返回索引标签。所以如果DataFrame在索引中有重复,标签可能无法唯一标识行,所以df.loc
可能返回不止一行。
因此,如果df
没有唯一索引,则必须先使索引唯一,然后再进行上述操作。根据 DataFrame,有时您可以使用 stack
或 set_index
使索引唯一。或者,您可以简单地重置索引(使行重新编号,从 0 开始):
df = df.reset_index()
【讨论】:
【参考方案10】:df[df['Value']==df['Value'].max()]
这将返回具有最大值的整行
【讨论】:
解释:- 内部表达式对整个数据帧的长度进行布尔检查,满足表达式右侧的索引(.max())返回索引,然后调用该数据帧的完整行【参考方案11】:国家和地方是系列的索引,如果不需要索引,可以设置as_index=False
:
df.groupby(['country','place'], as_index=False)['value'].max()
编辑:
您似乎想要每个国家/地区都具有最大值的地方,以下代码将满足您的需求:
df.groupby("country").apply(lambda df:df.irow(df.value.argmax()))
【讨论】:
只会返回列名和数据类型【参考方案12】:使用DataFrame
的index
属性。请注意,我没有输入示例中的所有行。
In [14]: df = data.groupby(['Country','Place'])['Value'].max()
In [15]: df.index
Out[15]:
MultiIndex
[Spain Manchester, UK London , US Mchigan , NewYork ]
In [16]: df.index[0]
Out[16]: ('Spain', 'Manchester')
In [17]: df.index[1]
Out[17]: ('UK', 'London')
您还可以通过该索引获取值:
In [21]: for index in df.index:
print index, df[index]
....:
('Spain', 'Manchester') 512
('UK', 'London') 778
('US', 'Mchigan') 854
('US', 'NewYork') 562
编辑
对不起,误会你想要什么,试试以下:
In [52]: s=data.max()
In [53]: print '%s, %s, %s' % (s['Country'], s['Place'], s['Value'])
US, NewYork, 854
【讨论】:
正确。但我正在寻找一个单行输出,上面写着“美国,堪萨斯州,894” 谢谢。这将解决当前数据集的问题,其中只有 1 列具有值。当有更多具有值的列时,@unutbu 的解决方案会更好。还是谢谢。以上是关于groupby取最大值对应的行的主要内容,如果未能解决你的问题,请参考以下文章