从 pandas.DataFrame 中选择复杂的标准
Posted
技术标签:
【中文标题】从 pandas.DataFrame 中选择复杂的标准【英文标题】:Selecting with complex criteria from pandas.DataFrame 【发布时间】:2013-02-25 06:20:13 【问题描述】:例如我有简单的 DF:
import pandas as pd
from random import randint
df = pd.DataFrame('A': [randint(1, 9) for x in xrange(10)],
'B': [randint(1, 9)*10 for x in xrange(10)],
'C': [randint(1, 9)*100 for x in xrange(10)])
我可以使用 Pandas 的方法和习语从“A”中选择“B”对应值大于 50 和“C”的值 - 不等于 900 的值吗?
【问题讨论】:
df.query
和 pd.eval
似乎很适合这个用例。有关pd.eval()
系列函数、它们的特性和用例的信息,请访问Dynamic Expression Evaluation in pandas using pd.eval()。
不妨检查@Gecko 的答案:***.com/questions/13611065/…
【参考方案1】:
当然!设置:
>>> import pandas as pd
>>> from random import randint
>>> df = pd.DataFrame('A': [randint(1, 9) for x in range(10)],
'B': [randint(1, 9)*10 for x in range(10)],
'C': [randint(1, 9)*100 for x in range(10)])
>>> df
A B C
0 9 40 300
1 9 70 700
2 5 70 900
3 8 80 900
4 7 50 200
5 9 30 900
6 2 80 700
7 2 80 400
8 5 80 300
9 7 70 800
我们可以应用列操作并获取布尔系列对象:
>>> df["B"] > 50
0 False
1 True
2 True
3 True
4 False
5 False
6 True
7 True
8 True
9 True
Name: B
>>> (df["B"] > 50) & (df["C"] == 900)
0 False
1 False
2 True
3 True
4 False
5 False
6 False
7 False
8 False
9 False
[更新,切换到新式.loc
]:
然后我们可以使用这些索引到对象中。对于读取访问,您可以链接索引:
>>> df["A"][(df["B"] > 50) & (df["C"] == 900)]
2 5
3 8
Name: A, dtype: int64
但是您可能会因为视图和副本之间的差异而陷入麻烦,这样做是为了写访问权。您可以改用.loc
:
>>> df.loc[(df["B"] > 50) & (df["C"] == 900), "A"]
2 5
3 8
Name: A, dtype: int64
>>> df.loc[(df["B"] > 50) & (df["C"] == 900), "A"].values
array([5, 8], dtype=int64)
>>> df.loc[(df["B"] > 50) & (df["C"] == 900), "A"] *= 1000
>>> df
A B C
0 9 40 300
1 9 70 700
2 5000 70 900
3 8000 80 900
4 7 50 200
5 9 30 900
6 2 80 700
7 2 80 400
8 5 80 300
9 7 70 800
请注意,我不小心输入了== 900
而不是!= 900
或~(df["C"] == 900)
,但我懒得修复它。为读者练习。 :^)
【讨论】:
关于.loc
更新 - 如果您能说明我们在哪里获得副本以及在哪里查看视图会很好。
是否可以过滤熊猫数据框并使用 OR 运算符。例如,如果有一列月份,你能说 df = data['month'==JAN OR 'month' == FEB]?并且可能包括第二列使查询更复杂,newdf where col_month = jan OR feb AND col_day = MONDAY 或 WENDNESDAY
@yoshiserry:请作为一个单独的问题提出。没有人会在旧答案的 cmets 中看到它。
不要忘记括号 - 你会得到像TypeErrorcannot compare a dtyped [int64] array with a scalar of type [bool]
这样的奇怪错误
这种括号的使用不会导致整个系列的计算吗?如果我们想重复子集以提高效率怎么办?【参考方案2】:
另一种解决方案是使用query 方法:
import pandas as pd
from random import randint
df = pd.DataFrame('A': [randint(1, 9) for x in xrange(10)],
'B': [randint(1, 9) * 10 for x in xrange(10)],
'C': [randint(1, 9) * 100 for x in xrange(10)])
print df
A B C
0 7 20 300
1 7 80 700
2 4 90 100
3 4 30 900
4 7 80 200
5 7 60 800
6 3 80 900
7 9 40 100
8 6 40 100
9 3 10 600
print df.query('B > 50 and C != 900')
A B C
1 7 80 700
2 4 90 100
4 7 80 200
5 7 60 800
现在,如果您想更改 A 列中的返回值,您可以保存它们的索引:
my_query_index = df.query('B > 50 & C != 900').index
....并使用.iloc
更改它们,即:
df.iloc[my_query_index, 0] = 5000
print df
A B C
0 7 20 300
1 5000 80 700
2 5000 90 100
3 4 30 900
4 5000 80 200
5 5000 60 800
6 3 80 900
7 9 40 100
8 6 40 100
9 3 10 600
【讨论】:
【参考方案3】:记得使用括号!
请记住,&
运算符优先于 >
或 <
等运算符。这就是为什么
4 < 5 & 6 > 4
计算为False
。因此,如果您使用pd.loc
,则需要在逻辑语句周围加上括号,否则会出错。这就是为什么这样做:
df.loc[(df['A'] > 10) & (df['B'] < 15)]
而不是
df.loc[df['A'] > 10 & df['B'] < 15]
这会导致
TypeError: 无法将 dtyped [float64] 数组与 [bool] 类型的标量进行比较
【讨论】:
将每个条件括在括号中非常重要!我有一个嵌套条件,其中一个没有被包装并导致一段时间的错误,直到我看到这篇文章。谢谢【参考方案4】:您可以使用 pandas,它有一些内置函数进行比较。所以如果你想选择满足“B”和“C”条件的“A”值(假设你想要一个DataFrame pandas对象)
df[['A']][df.B.gt(50) & df.C.ne(900)]
df[['A']]
将以 DataFrame 格式返回 A 列。
pandas 'gt' 函数将返回 B 列大于 50 的位置,而 'ne' 将返回不等于 900 的位置。
【讨论】:
以上是关于从 pandas.DataFrame 中选择复杂的标准的主要内容,如果未能解决你的问题,请参考以下文章
使用 Multiindex 从 Pandas DataFrame 中选择数据
通过从每一行的不同列中选择一个元素,从 Pandas DataFrame 创建一个系列
python 从ArcGIS Online上的要素图层集合中搜索,选择和生成pandas DataFrame。