14.pandas里面按条件筛选

Posted 2023-04-20

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了14.pandas里面按条件筛选相关的知识，希望对你有一定的参考价值。

参考技术A

筛选是在平时的工作中使用非常频繁的功能，前文介绍了loc和iloc的筛选方法，现在继续介绍一些筛选的方法。

以>,<,==,>=,<=来进行选择（“等于”一定是用‘==’，如果用‘=’就不是判断大小了）：

使用 &（且）和 |（或）时每个条件都要用小括号括起来。

选取多列一定是两个方括号，其中内侧方括号代表是一个list：

如果要选择某列等于多个数值或者字符串时，要用到.isin()，我们把df修改了一下（ isin()括号里面应该是个list ）：

平时使用最多的筛选应该是字符串的模糊筛选，在SQL语句里用的是like，在pandas里我们可以用.str.contains()来实现。

也可以使用 \'|\' 来进行多个条件的筛选：

注意，这个‘|’是在引号内的，而不是将两个字符串分别引起来。 ’&‘在这里不能用。

如果中间的.str不用的话，就会出错，提示‘Series’数组没有‘contains\'函数。

其实.str的作用就是将’Series‘转换为类似Strings的结构，然后就可以用contains函数了。

Pandas日期数据处理：如何按日期筛选显示及统计数据

前言

pandas有着强大的日期数据处理功能，本期我们来了解下pandas处理日期数据的一些基本功能，主要包括以下三个方面：

按日期筛选数据
按日期显示数据
按日期统计数据

运行环境为 windows系统，64位，python3.5。

1 读取并整理数据

首先引入pandas库
```
import pandas as pd
```
从csv文件中读取数据

df = pd.read_csv(\'date.csv\', header=None)
print(df.head(2))

            0  1
0  2013-10-24  3
1  2013-10-25  4

整理数据

df.columns = [\'date\',\'number\']
df[\'date\'] = pd.to_datetime(df[\'date\']) #将数据类型转换为日期类型
df = df.set_index(\'date\') # 将date设置为index
print(df.head(2))
print(df.tail(2))
print(df.shape)

            number
date              
2013-10-24       3
2013-10-25       4
            number
date              
2017-02-14       6
2017-02-22       6
(425, 1)

df的行数一共是425行。

查看Dataframe的数据类型

print(type(df))
print(df.index)
print(type(df.index))

<class \'pandas.core.frame.DataFrame\'>
DatetimeIndex([\'2013-10-24\', \'2013-10-25\', \'2013-10-29\', \'2013-10-30\',
               \'2013-11-04\', \'2013-11-06\', \'2013-11-08\', \'2013-11-12\',
               \'2013-11-14\', \'2013-11-25\',
               ...
               \'2017-01-03\', \'2017-01-07\', \'2017-01-14\', \'2017-01-17\',
               \'2017-01-23\', \'2017-01-25\', \'2017-01-26\', \'2017-02-07\',
               \'2017-02-14\', \'2017-02-22\'],
              dtype=\'datetime64[ns]\', name=\'date\', length=425, freq=None)
<class \'pandas.tseries.index.DatetimeIndex\'>

构造Series类型数据

s = pd.Series(df[\'number\'], index=df.index)
print(type(s))
s.head(2)

<class \'pandas.core.series.Series\'>

date
2013-10-24    3
2013-10-25    4
Name: number, dtype: int64

2 按日期筛选数据

按年度获取数据

print(\'---------获取2013年的数据-----------\')
print(df[\'2013\'].head(2)) # 获取2013年的数据
print(df[\'2013\'].tail(2)) # 获取2013年的数据

---------获取2013年的数据-----------
            number
date              
2013-10-24       3
2013-10-25       4
            number
date              
2013-12-27       2
2013-12-30       2

获取2016至2017年的数据

print(\'---------获取2016至2017年的数据-----------\')
print(df[\'2016\':\'2017\'].head(2))  #获取2016至2017年的数据
print(df[\'2016\':\'2017\'].tail(2))  #获取2016至2017年的数据

---------获取2016至2017年的数据-----------
            number
date              
2016-01-04       4
2016-01-07       6
            number
date              
2017-02-14       6
2017-02-22       6

获取某月的数据

print(\'---------获取某月的数据-----------\')
print(df[\'2013-11\']) # 获取某月的数据

---------获取某月的数据-----------
            number
date              
2013-11-04       1
2013-11-06       3
2013-11-08       1
2013-11-12       5
2013-11-14       2
2013-11-25       1
2013-11-29       1

获取具体某天的数据

请注意dataframe类型的数据，获取具体某天的数据时，跟series是有些差异的，详细情况如下述代码所示：

# 按日期筛选数据
print(\'---------获取具体某天的数据-----------\')
# 获取具体某天的数据
print(s[\'2013-11-06\'])

# 获取具体某天的数据，用datafrme直接选取某天时会报错，而series的数据就没有问题
# print(df[\'2013-11-06\'])

#可以考虑用区间来获取某天的数据
print(df[\'2013-11-06\':\'2013-11-06\'])

---------获取具体某天的数据-----------
3
            number
date              
2013-11-06       3

dataframe的truncate函数可以获取某个时期之前或之后的数据，或者某个时间区间的数据
但一般建议直接用切片（slice），这样更为直观，方便

# dataframe的truncate函数可以获取某个时期之前或之后的数据，或者某个时间区间的数据
# 但一般建议直接用切片（slice），这样更为直观，方便
print(\'---------获取某个时期之前或之后的数据-----------\')
print(\'--------after------------\')
print(df.truncate(after = \'2013-11\'))
print(\'--------before------------\')
print(df.truncate(before=\'2017-02\'))

---------获取某个时期之前或之后的数据-----------
--------after------------
            number
date              
2013-10-24       3
2013-10-25       4
2013-10-29       2
2013-10-30       1
--------before------------
            number
date              
2017-02-07       8
2017-02-14       6
2017-02-22       6

3 按日期显示数据

3.1 to_period()方法

请注意df.index的数据类型是DatetimeIndex；
df_peirod的数据类型是PeriodIndex

按月显示，但不统计

df_period = df.to_period(\'M\') #按月显示，但不统计
print(type(df_period))

print(type(df_period.index))
# 请注意df.index的数据类型是DatetimeIndex；
# df_peirod的数据类型是PeriodIndex

print(df_period.head())

<class \'pandas.core.frame.DataFrame\'>
<class \'pandas.tseries.period.PeriodIndex\'>
         number
date           
2013-10       3
2013-10       4
2013-10       2
2013-10       1
2013-11       1

按季度显示，但不统计

print(df.to_period(\'Q\').head()) #按季度显示，但不统计

        number
date          
2013Q4       3
2013Q4       4
2013Q4       2
2013Q4       1
2013Q4       1

按年度显示，但不统计

print(df.to_period(\'A\').head()) #按年度显示，但不统计

      number
date        
2013       3
2013       4
2013       2
2013       1
2013       1

3.2 asfreq()方法

按年度频率显示

df_period.index.asfreq(\'A\') # \'A\'默认是\'A-DEC\',其他如\'A-JAN\'

PeriodIndex([\'2013\', \'2013\', \'2013\', \'2013\', \'2013\', \'2013\', \'2013\', \'2013\',
             \'2013\', \'2013\',
             ...
             \'2017\', \'2017\', \'2017\', \'2017\', \'2017\', \'2017\', \'2017\', \'2017\',
             \'2017\', \'2017\'],
            dtype=\'period[A-DEC]\', name=\'date\', length=425, freq=\'A-DEC\')

df_period.index.asfreq(\'A-JAN\') # \'A\'默认是\'A-DEC\',其他如\'A-JAN\'

PeriodIndex([\'2014\', \'2014\', \'2014\', \'2014\', \'2014\', \'2014\', \'2014\', \'2014\',
             \'2014\', \'2014\',
             ...
             \'2017\', \'2017\', \'2017\', \'2017\', \'2017\', \'2017\', \'2017\', \'2018\',
             \'2018\', \'2018\'],
            dtype=\'period[A-JAN]\', name=\'date\', length=425, freq=\'A-JAN\')

按年度频率在不同情形下的显示，可参考下图所示：

按季度频率显示

df_period.index.asfreq(\'Q\') # \'Q\'默认是\'Q-DEC\',其他如“Q-SEP”，“Q-FEB”

PeriodIndex([\'2013Q4\', \'2013Q4\', \'2013Q4\', \'2013Q4\', \'2013Q4\', \'2013Q4\',
             \'2013Q4\', \'2013Q4\', \'2013Q4\', \'2013Q4\',
             ...
             \'2017Q1\', \'2017Q1\', \'2017Q1\', \'2017Q1\', \'2017Q1\', \'2017Q1\',
             \'2017Q1\', \'2017Q1\', \'2017Q1\', \'2017Q1\'],
            dtype=\'period[Q-DEC]\', name=\'date\', length=425, freq=\'Q-DEC\')

df_period.index.asfreq(\'Q-SEP\') # 可以显示不同的季度财年，“Q-SEP”，“Q-FEB”
# df_period.index = df_period.index.asfreq(\'Q-DEC\') # 可以显示不同的季度财年，“Q-SEP”，“Q-FEB”
# print(df_period.head())

PeriodIndex([\'2014Q1\', \'2014Q1\', \'2014Q1\', \'2014Q1\', \'2014Q1\', \'2014Q1\',
             \'2014Q1\', \'2014Q1\', \'2014Q1\', \'2014Q1\',
             ...
             \'2017Q2\', \'2017Q2\', \'2017Q2\', \'2017Q2\', \'2017Q2\', \'2017Q2\',
             \'2017Q2\', \'2017Q2\', \'2017Q2\', \'2017Q2\'],
            dtype=\'period[Q-SEP]\', name=\'date\', length=425, freq=\'Q-SEP\')

按季度频率在不同情形下的显示，可参考下图所示：

按月度频率显示

df_period.index.asfreq(\'M\') # 按月份显示

PeriodIndex([\'2013-10\', \'2013-10\', \'2013-10\', \'2013-10\', \'2013-11\', \'2013-11\',
             \'2013-11\', \'2013-11\', \'2013-11\', \'2013-11\',
             ...
             \'2017-01\', \'2017-01\', \'2017-01\', \'2017-01\', \'2017-01\', \'2017-01\',
             \'2017-01\', \'2017-02\', \'2017-02\', \'2017-02\'],
            dtype=\'period[M]\', name=\'date\', length=425, freq=\'M\')

按工作日显示

method 1

df_period.index.asfreq(\'B\', how=\'start\') # 按工作日期显示

PeriodIndex([\'2013-10-01\', \'2013-10-01\', \'2013-10-01\', \'2013-10-01\',
             \'2013-11-01\', \'2013-11-01\', \'2013-11-01\', \'2013-11-01\',
             \'2013-11-01\', \'2013-11-01\',
             ...
             \'2017-01-02\', \'2017-01-02\', \'2017-01-02\', \'2017-01-02\',
             \'2017-01-02\', \'2017-01-02\', \'2017-01-02\', \'2017-02-01\',
             \'2017-02-01\', \'2017-02-01\'],
            dtype=\'period[B]\', name=\'date\', length=425, freq=\'B\')

method 2

df_period.index.asfreq(\'B\', how=\'end\') # 按工作日期显示

PeriodIndex([\'2013-10-31\', \'2013-10-31\', \'2013-10-31\', \'2013-10-31\',
             \'2013-11-29\', \'2013-11-29\', \'2013-11-29\', \'2013-11-29\',
             \'2013-11-29\', \'2013-11-29\',
             ...
             \'2017-01-31\', \'2017-01-31\', \'2017-01-31\', \'2017-01-31\',
             \'2017-01-31\', \'2017-01-31\', \'2017-01-31\', \'2017-02-28\',
             \'2017-02-28\', \'2017-02-28\'],
            dtype=\'period[B]\', name=\'date\', length=425, freq=\'B\')

4 按日期统计数据

4.1按日期统计数据

按周统计数据

print(df.resample(\'w\').sum().head())
# “w”，week

            number
date              
2013-10-27     7.0
2013-11-03     3.0
2013-11-10     5.0
2013-11-17     7.0
2013-11-24     NaN

按月统计数据

print(df.resample(\'M\').sum().head())
# "MS"是每个月第一天为开始日期, "M"是每个月最后一天

            number
date              
2013-10-31      10
2013-11-30      14
2013-12-31      27
2014-01-31      16
2014-02-28       4

按季度统计数据

print(df.resample(\'Q\').sum().head())
# "QS"是每个季度第一天为开始日期, "Q"是每个季度最后一天

            number
date              
2013-12-31      51
2014-03-31      73
2014-06-30      96
2014-09-30     136
2014-12-31     148

按年统计数据


print(df.resample(\'AS\').sum())
# "AS"是每年第一天为开始日期, "A是每年最后一天

            number
date              
2013-01-01      51
2014-01-01     453
2015-01-01     743
2016-01-01    1552
2017-01-01      92

关于日期的类型，按参考下图所示来选择合适的分期频率：

4.2 按日期统计后，按年或季度或月份显示

按年统计并显示

print(df.resample(\'AS\').sum().to_period(\'A\'))
# 按年统计并显示

      number
date        
2013      51
2014     453
2015     743
2016    1552
2017      92

按季度统计并显示

print(df.resample(\'Q\').sum().to_period(\'Q\').head())
# 按季度统计并显示

        number
date          
2013Q4      51
2014Q1      73
2014Q2      96
2014Q3     136
2014Q4     148

按月度统计并显示

print(df.resample(\'M\').sum().to_period(\'M\').head())
# 按月度统计并显示

         number
date           
2013-10      10
2013-11      14
2013-12      27
2014-01      16
2014-02       4

更多精彩内容请关注微信公众号：

“Python数据之道”

以上是关于14.pandas里面按条件筛选的主要内容，如果未能解决你的问题，请参考以下文章

C#中的DATAGRIDVIEW表格可以进行条件筛选的显示数据吗?

EXCEL表格中如何多条件筛选

Excel表格中筛选如何设置多个条件？

excel 筛选多个条件怎么设置

C#的问题，怎么在List集合中筛选数据？