用列/系列中的值替换熊猫子字符串

Posted

技术标签:

【中文标题】用列/系列中的值替换熊猫子字符串【英文标题】:Replacing a pandas substring with value from a column/Series 【发布时间】:2020-03-07 10:19:55 【问题描述】:

我正在尝试用 pandas 列中的值替换 Pandas 子字符串。这个问题以前没有人回答过。

我曾尝试使用 .replace() 方法,但它抛出以下错误:

TypeError Traceback(最近调用 最后)在 ----> 1 df['name'].str.replace('(C)', df.name2)

~/opt/anaconda3/lib/python3.7/site-packages/pandas/core/strings.py 在 包装器(自我,*args,**kwargs)1841)1842 引发类型错误(味精) -> 1843 return func(self, *args, **kwargs) 1844 1845 wrapper.name = func_name

~/opt/anaconda3/lib/python3.7/site-packages/pandas/core/strings.py 在 替换(self,pat,repl,n,case,flags,regex)2714 def 替换(self,pat,repl,n=-1,case=None,flags=0,regex=True): 第2715章 -> 2716 self._parent, pat, repl, n=n, case=case, flags=flags, regex=regex 2717) 2718 返回 self._wrap_result(结果)

~/opt/anaconda3/lib/python3.7/site-packages/pandas/core/strings.py 在 str_replace(arr,pat,repl,n,case,flags,regex) 597 # 检查 repl 是否有效 (GH 13438, GH 15055) 598 如果不是(is_string_like(repl) 或 callable(repl)): --> 599 raise TypeError("repl must be a string or callable") 600 601 is_compiled_re = is_re(pat)

TypeError: repl 必须是字符串或可调用的

data = 'id': [1, 2, 3, 4], 'name': ['name1 (C)', 'name2 (B)', 'name3', 'name4'],
        'name2':['Jane','Abbie','Luke','Peter']


df = pd.DataFrame(data)

df['name'].str.replace('\(C\)', df.name2)

预期结果:

    id  name    name2
0   1   name1 Jane  Jane
1   2   name2 Abbie Abbie
2   3   name3   Luke
3   4   name4   Peter

【问题讨论】:

【参考方案1】:

你需要 python re.sub 和 listcomp

import re

df['new_name'] = [re.sub(r'\(\w+\)', r, s) for r, s in zip(df.name2, df.name)]

Out[280]:
   id       name  name2     new_name
0   1  name1 (C)   Jane   name1 Jane
1   2  name2 (B)  Abbie  name2 Abbie
2   3      name3   Luke        name3
3   4      name4  Peter        name4

【讨论】:

谢谢。有没有其他不使用正则表达式的解决方案? 是的。您可以使用str.split 和有条件的替换和加入。它要求您知道要替换的子字符串的确切位置(如在您的示例中它们是第二个单词),并且拆分和连接不是最佳选择。 谢谢安迪。说得通。我会使用正则表达式

以上是关于用列/系列中的值替换熊猫子字符串的主要内容,如果未能解决你的问题,请参考以下文章

PB中取字符串子串的函数是啥

用列数据替换括号内的字符串

如何用熊猫列中的另一个字符串替换子字符串[关闭]

如何根据字典替换熊猫系列中的字符串组,并将值作为列表?

这是用熊猫中列的平均值替换字符串的正确方法吗?

用字典替换熊猫系列中的值