用正则表达式替换 Pandas 数据框中字符串的某个部分

Posted

技术标签:

【中文标题】用正则表达式替换 Pandas 数据框中字符串的某个部分【英文标题】:Replacing a certain part of a string in a Pandas Data Frame with Regex 【发布时间】:2017-01-17 01:09:53 【问题描述】:

我的数据框有一个日期列(当前是字符串)。我正在尝试解决该列的问题。

df[:15]

    Date    Customer ID
0   01/25/2016  104064596300
1   02/28/2015  102077474472
2   11/17/2016  106430081724
3   02/24/2016  107770391692
4   10/05/2016  106523680888
5   02/24/2016  107057691592
6   11/24/2015  102472820188
7   10/12/2016  107195498128
8   01/05/2016  104796266660
9   09/30/2016  107812562924
10  10/13/2015  102809057000
11  11/21/2016  107379017712
12  11/08/2015  106642145040
13  02/26/2015  107862343816
14  10/16/2016  107383084928

我的数据应该在以下日期范围内:2015 年 9 月至 2016 年 2 月。

有些数据的年份混在一起(例如,参见上面的第 2 行 - 2016 年 11 月 17 日!)

我要做的是更改日期不正确的观察年份。

我玩过 Pandas 中的 replace() 命令,但无法找到有效的命令:

df.Date.str.replace(('^(09|10|11|12)\/\d\d\/2016$'), '2015')

0         01/25/2016
1         02/28/2015
2               2015
3         02/24/2016
4               2015
5         02/24/2016
6         11/24/2015
7               2015
8         01/05/2016
9               2015
10        10/13/2015
11              2015
12        11/08/2015
13        02/26/2015
14              2015
15        12/17/2015
16        01/05/2015
17        01/21/2015
18              2015
19              2015
20        02/06/2016
21        10/06/2015
22        02/18/2016

具体来说,我只是想根据某些条件更改每行的最后 4 位数字(年份):

    如果月份在 9 月到 12 月(09 到 12)之间并且有年份 2016 年,将此观测的年份更改为 2015 年

    如果月份是 1 月或 2 月(01 或 02)并且年份为 2015,则将此观测的年份更改为 2016

我在上面编写的命令确定了场景 1) 的正确观察结果,但我无法替换最后 4 位数字并将结果输入回原始数据框中。

最后一点:您可能会想,为什么不简单地将列更改为日期时间类型,然后根据需要添加或减去一年?如果我尝试这样做,我会遇到错误,因为某些观察的日期是:2/29/2015 -> 您会遇到错误,因为 2015 年没有 2 月 29 日!

【问题讨论】:

【参考方案1】:

不要将日期视为字符串。您可以先将日期的字符串格式转换为时间戳,然后切片。

import pandas ad pd
df.loc[:, 'Date'] = pd.DatetimeIndex(df['Date'], name='Date')
df = df.set_index('Date')
df['2015-09': '2016-02']

更新:

df.loc[:, 'year_month'] = df.Date.map(lambda s: int(s[-4:]+s[:3]))
df.query('201509<=year_month<=201602').drop('year_month', axis=1)

对不起,我误解了你的问题。

def transform(date_string):
    year = date_string[-4:]
    month = date_string[:2]
    day = date_string[3:5]
    if year== '2016' and month in ['09', '10', '11', '12']:
        return month + '/' + day + '/' + str(int(year)-1)
    elif year == '2015' and month in ['01', '02', '03']:
        return month + '/' + day + '/' + str(int(year)+1)
    else:
        return date_string

df.loc[:, 'Date'] = df.Date.map(transform)

【讨论】:

谢谢 - 只需对您的函数进行一些小的编辑即可使其正常工作:1) date_string 应该是 [:2] 而不是 [:3] 因为它将捕获 " / " in字符串 2) 你在定义函数时拼错了转换(它的转换)

以上是关于用正则表达式替换 Pandas 数据框中字符串的某个部分的主要内容,如果未能解决你的问题,请参考以下文章

Python - Pandas - 用正则表达式替换字符串| (要么)

在熊猫数据框中使用正则表达式替换列值

Python Pandas:使用正则表达式用超链接替换字符串

Pandas 中的严格正则表达式替换

使用正则表达式在 Pandas 数据框中字符串开头的大括号内去除数字

用正则表达式替换某一区段内的字符,在线等