在 Pandas str.contains() 的正则表达式中使用变量

Posted

技术标签:

【中文标题】在 Pandas str.contains() 的正则表达式中使用变量【英文标题】:Using a variable within a regular expression in Pandas str.contains() 【发布时间】:2019-05-06 10:05:38 【问题描述】:

我正在尝试使用 pandas str.contains() 函数和包含如下所示变量的正则表达式从数据框中选择行。

df = pd.DataFrame(["A test Case","Another Testing Case"], columns=list("A"))
variable = "test"
df[df["A"].str.contains(r'\b' + variable + '\b', regex=True, case=False)] #Returns nothing

虽然上面没有返回任何内容,但下面会按预期返回相应的行

df[df["A"].str.contains(r'\btest\b', regex=True, case=False)] #Returns values as expected

任何帮助将不胜感激。

【问题讨论】:

也许您的问题是将原始字符串连接到标准字符串?也许试试fr'\bvariable\b' 【参考方案1】:

两个单词边界字符都必须在原始字符串中。为什么不使用某种字符串格式呢?通常不鼓励字符串连接。

df[df["A"].str.contains(fr'\bvariable\b', regex=True, case=False)] 
# Or, 
# df[df["A"].str.contains(r'\b\b'.format(variable), regex=True, case=False)] 

             A
0  A test Case

【讨论】:

如果您指定了字符的数量,您将如何执行此操作,因为 [0-9]3 会发生这种情况,例如,如果您想要三个数字的模式。刚刚遇到这个问题,所以只使用字符串连接解决了它,f-string没有工作。 @Erfan 标准方法是转义大括号。如果没记错的话,那就是 3。【参考方案2】:

在将“变量”解析为 str.contains(variable) 时,我遇到了完全相同的问题。

尝试使用 str.contains(variable, regex=False)

它非常适合我。

【讨论】:

显然与 OP 要求的相反。【参考方案3】:

以下命令对我有用:df.query('text.str.contains(@variable)')

【讨论】:

以上是关于在 Pandas str.contains() 的正则表达式中使用变量的主要内容,如果未能解决你的问题,请参考以下文章

在 Pandas str.contains() 的正则表达式中使用变量

如何在 Pandas 中向 .str.contains 添加多个字符串? [复制]

映射 str.contains 跨 pandas DataFrame

python pandas 中的 Str.contains 也标记为空白

当有前导空格时,为啥 Pandas series.str.contains 方法无法检测到匹配?

Pandas Series contains 判断