pandas的筛选功能，跟excel的筛选功能类似，但是功能更强大。

Posted 2020-10-01

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了pandas的筛选功能，跟excel的筛选功能类似，但是功能更强大。相关的知识，希望对你有一定的参考价值。

　　Select rows from a DataFrame based on values in a column -pandas 筛选
　　
　　https://stackoverflow.com/questions/17071871/select-rows-from-a-dataframe-based-on-values-in-a-column-in-pandas
　　
　　pandas的筛选功能，跟excel的筛选功能类似，但是功能更强大。
　　
　　在SQL数据中，我们可以用这样的语句：
　　
　　select * from table where colume_name = some_value.
　　
　　1
　　
　　1
　　
　　bool 索引
　　
　　在Pandas的DataFrame格式中可以采用 bool 值作为索引，选取数据行。比如：
　　
　　import pandas as pd
　　
　　# Create data set
　　
　　d = {‘foo‘:[100, 111, 222],
　　
　　‘bar‘:[333, 444, 555]}
　　
　　df = pd.DataFrame(d)
　　
　　# Full dataframe:
　　
　　df
　　
　　# Shows:
　　
　　# bar foo
　　
　　# 0 333 100
　　
　　# 1 444 111
　　
　　# 2 555 222
　　
　　# bool 值索引
　　
　　df[[True, False, True]] # 或 df.loc[[True, False, True]]
　　
　　# 都可以得到
　　
　　# bar foo
　　
　　#0 333 100
　　
　　#1 444 111
　　
　　所以，如果想通过数值来对行进行筛选，我们可以通过构造bool值来选择DataFrame的行
　　
　　df[df[‘column_name‘] == some_value] 如果是数值型，也可以采用 >/<
　　
　　df[df[‘column_name‘].isin(some_values)] some_values 可以是单个变量，也可以是list 或者迭代器
　　
　　组合多种条件
　　
　　df[(df[‘column_name‘] == some_value) & df[‘other_column‘].isin(some_values)]
　　
　　df[(df[‘column_name‘] == some_value) | df[‘other_column‘].isin(some_values)]
　　
　　#注意，& | 的优先级很高，所以每个条件都需要一个括号
　　
　　不等于，可以使用
　　
　　df[~df[‘column_name‘].isin(some_values)]
　　
　　df[df[‘column_name‘] != some_value]
　　
　　np.where
　　
　　与上面所述的方法有所不同， np.where 返回的是行的位置，所以在获取行时不能采用df，要采用df.loc 或者 df.iloc
　　
　　np.where(df.A.values==‘foo‘)
　　
　　# (array([0, 2, 4, 6, 7]),)
　　
　　df.iloc[np.where(df.A.values==‘foo‘)]
　　
　　query
　　
　　DataFrame 提供了query函数，方便我们可以采用表达式来进行数据的筛选。
　　
　　参考：
　　
　　http://pandas.pydata.org/pandas-docs/version/0.17.0/indexing.html#indexing-query
　　
　　n = 10
　　
　　df = pd.DataFrame(np.random.randint(n, size=(n, 2)), columns=list(‘bc‘))
　　
　　# b c
　　
　　# 0 9 0
　　
　　# 1 1 2
　　
　　# 2 2 4
　　
　　# 3 7 6
　　
　　# 4 6 4
　　
　　# 5 4 7
　　
　　# 6 2 9
　　
　　# 7 4 8
　　
　　# 8 6 2
　　
　　# 9 9 0
　　
　　df.query(‘index > b > c‘)
　　
　　# b c
　　
　　# 8 6 2
　　
　　#可以采用的表达式很多,比如
　　
　　df.query(‘(a < b) & (b < c)‘)
　　
　　df.query(‘a < b and b < c‘)
　　
　　时间测评
　　
　　import pandas as pd
　　
　　df = pd.DataFrame({‘A‘: ‘foo bar foo bar foo bar foo foo‘.split(),
　　
　　‘B‘: ‘one one two three two two one www.lieqibiji.com three‘.split()})
　　
　　df.iloc[np.where(df.A.values==‘foo‘)]
　　
　　%timeit df.iloc[np.where(df.A.values==‘foo‘)]
　　
　　#1000 loops, best of 3: www.caihonyule.com/ 274 μs per loop
　　
　　%timeit df.loc[np.where(df.A.values==‘foo‘)]
　　
　　#1000 loops, best of 3: 342 μs per loop
　　
　　%timeit df.loc[df[‘A‘] == ‘foo‘]
　　
　　#1000 loops, best of 3: 347 μs per loop
　　
　　%timeit df[df[‘A‘] == ‘foo‘]
　　
　　#1000 loops, best of 3: 354 www.feifanshifan8.cn μs per loop
　　
　　%timeit df.loc[df[‘A‘].isin([‘foo‘])]
　　
　　#1000 loops, best of 3: 265 μs per loop
　　
　　%timeit df[df.A==‘foo‘]
　　
　　#1000 loops, best of 3: 357 www.xingchexiu.com μs per loop
　　
　　%timeit df.query(‘(A=="www.qinlinyule.cn foo")‘)
　　
　　#1000 loops, best of 3: 943 μs per loop
　　
　　可以发现采用 df.iloc[np.where(df.A.values==‘foo‘)]和 df.loc[df[‘A‘].isin([‘foo‘])] 速度比较快，而采用query的方法比较慢。
　　
　　df.loc[df[‘A‘] == ‘foo‘] 速度快于 df[df[‘A‘] == ‘foo‘]

以上是关于pandas的筛选功能，跟excel的筛选功能类似，但是功能更强大。的主要内容，如果未能解决你的问题，请参考以下文章