从 pandas.DataFrame 中选择复杂的标准

Posted

技术标签:

【中文标题】从 pandas.DataFrame 中选择复杂的标准【英文标题】:Selecting with complex criteria from pandas.DataFrame 【发布时间】:2013-02-25 06:20:13 【问题描述】:

例如我有简单的 DF:

import pandas as pd
from random import randint

df = pd.DataFrame('A': [randint(1, 9) for x in xrange(10)],
                   'B': [randint(1, 9)*10 for x in xrange(10)],
                   'C': [randint(1, 9)*100 for x in xrange(10)])

我可以使用 Pandas 的方法和习语从“A”中选择“B”对应值大于 50 和“C”的值 - 不等于 900 的值吗?

【问题讨论】:

df.querypd.eval 似乎很适合这个用例。有关pd.eval() 系列函数、它们的特性和用例的信息,请访问Dynamic Expression Evaluation in pandas using pd.eval()。 不妨检查@Gecko 的答案:***.com/questions/13611065/… 【参考方案1】:

当然!设置:

>>> import pandas as pd
>>> from random import randint
>>> df = pd.DataFrame('A': [randint(1, 9) for x in range(10)],
                   'B': [randint(1, 9)*10 for x in range(10)],
                   'C': [randint(1, 9)*100 for x in range(10)])
>>> df
   A   B    C
0  9  40  300
1  9  70  700
2  5  70  900
3  8  80  900
4  7  50  200
5  9  30  900
6  2  80  700
7  2  80  400
8  5  80  300
9  7  70  800

我们可以应用列操作并获取布尔系列对象:

>>> df["B"] > 50
0    False
1     True
2     True
3     True
4    False
5    False
6     True
7     True
8     True
9     True
Name: B
>>> (df["B"] > 50) & (df["C"] == 900)
0    False
1    False
2     True
3     True
4    False
5    False
6    False
7    False
8    False
9    False

[更新,切换到新式.loc]:

然后我们可以使用这些索引到对象中。对于读取访问,您可以链接索引:

>>> df["A"][(df["B"] > 50) & (df["C"] == 900)]
2    5
3    8
Name: A, dtype: int64

但是您可能会因为视图和副本之间的差异而陷入麻烦,这样做是为了写访问权。您可以改用.loc

>>> df.loc[(df["B"] > 50) & (df["C"] == 900), "A"]
2    5
3    8
Name: A, dtype: int64
>>> df.loc[(df["B"] > 50) & (df["C"] == 900), "A"].values
array([5, 8], dtype=int64)
>>> df.loc[(df["B"] > 50) & (df["C"] == 900), "A"] *= 1000
>>> df
      A   B    C
0     9  40  300
1     9  70  700
2  5000  70  900
3  8000  80  900
4     7  50  200
5     9  30  900
6     2  80  700
7     2  80  400
8     5  80  300
9     7  70  800

请注意,我不小心输入了== 900 而不是!= 900~(df["C"] == 900),但我懒得修复它。为读者练习。 :^)

【讨论】:

关于.loc 更新 - 如果您能说明我们在哪里获得副本以及在哪里查看视图会很好。 是否可以过滤熊猫数据框并使用 OR 运算符。例如,如果有一列月份,你能说 df = data['month'==JAN OR 'month' == FEB]?并且可能包括第二列使查询更复杂,newdf where col_month = jan OR feb AND col_day = MONDAY 或 WENDNESDAY @yoshiserry:请作为一个单独的问题提出。没有人会在旧答案的 cmets 中看到它。 不要忘记括号 - 你会得到像TypeErrorcannot compare a dtyped [int64] array with a scalar of type [bool]这样的奇怪错误 这种括号的使用不会导致整个系列的计算吗?如果我们想重复子集以提高效率怎么办?【参考方案2】:

另一种解决方案是使用query 方法:

import pandas as pd

from random import randint
df = pd.DataFrame('A': [randint(1, 9) for x in xrange(10)],
                   'B': [randint(1, 9) * 10 for x in xrange(10)],
                   'C': [randint(1, 9) * 100 for x in xrange(10)])
print df

   A   B    C
0  7  20  300
1  7  80  700
2  4  90  100
3  4  30  900
4  7  80  200
5  7  60  800
6  3  80  900
7  9  40  100
8  6  40  100
9  3  10  600

print df.query('B > 50 and C != 900')

   A   B    C
1  7  80  700
2  4  90  100
4  7  80  200
5  7  60  800

现在,如果您想更改 A 列中的返回值,您可以保存它们的索引:

my_query_index = df.query('B > 50 & C != 900').index

....并使用.iloc 更改它们,即:

df.iloc[my_query_index, 0] = 5000

print df

      A   B    C
0     7  20  300
1  5000  80  700
2  5000  90  100
3     4  30  900
4  5000  80  200
5  5000  60  800
6     3  80  900
7     9  40  100
8     6  40  100
9     3  10  600

【讨论】:

【参考方案3】:

记得使用括号!

请记住,& 运算符优先于 >< 等运算符。这就是为什么

4 < 5 & 6 > 4

计算为False。因此,如果您使用pd.loc,则需要在逻辑语句周围加上括号,否则会出错。这就是为什么这样做:

df.loc[(df['A'] > 10) & (df['B'] < 15)]

而不是

df.loc[df['A'] > 10 & df['B'] < 15]

这会导致

TypeError: 无法将 dtyped [float64] 数组与 [bool] 类型的标量进行比较

【讨论】:

将每个条件括在括号中非常重要!我有一个嵌套条件,其中一个没有被包装并导致一段时间的错误,直到我看到这篇文章。谢谢【参考方案4】:

您可以使用 pandas,它有一些内置函数进行比较。所以如果你想选择满足“B”和“C”条件的“A”值(假设你想要一个DataFrame pandas对象)

df[['A']][df.B.gt(50) &amp; df.C.ne(900)]

df[['A']] 将以 DataFrame 格式返回 A 列。

pandas 'gt' 函数将返回 B 列大于 50 的位置,而 'ne' 将返回不等于 900 的位置。

【讨论】:

以上是关于从 pandas.DataFrame 中选择复杂的标准的主要内容,如果未能解决你的问题,请参考以下文章

使用 Multiindex 从 Pandas DataFrame 中选择数据

通过从每一行的不同列中选择一个元素,从 Pandas DataFrame 创建一个系列

python 从ArcGIS Online上的要素图层集合中搜索,选择和生成pandas DataFrame。

根据条件在Pandas DataFrame中选择行

在 Pandas DataFrame 中反转列顺序的大 O 复杂度是多少?

[python][pandas]DataFrame的基本操作