pyspark 中的正则表达式来检查字母和空格(也可以使用 uni 代码)

Posted

技术标签:

【中文标题】pyspark 中的正则表达式来检查字母和空格(也可以使用 uni 代码)【英文标题】:Regular expression in pyspark to check alphabets and space (Also work with uni codes) 【发布时间】:2020-03-03 16:55:31 【问题描述】:

我需要一个验证下表的正则表达式。

只有当字符串有字母或带空格的字母时才返回有效。

我尝试了下面的代码,但它不允许空间。

r = "\A\pL+\z"

Result_Name = Name_NotNull.withColumn("Name_Alphabets_Valid", when(col("first").rlike(r), lit("valid")).otherwise(lit("Invalid")))

【问题讨论】:

@WiktorStribiżew 我只使用 rlike 在代码中检查它col("first").rlike(r), lit("valid") 【参考方案1】:

尝试使用除字母字符外还允许空格的字符类:

r = "\A[\pL\s]+\z"

【讨论】:

谢谢,它的工作。我会检查所有字符串,如果我有任何疑问,请告诉您。 我正在使用 r = "^([a-zA-Z0-9_\-\.]+)@([a-zA-Z0-9_\-\.]+)\.([a-zA-Z]2,5)$" 进行电子邮件验证,但它返回一些有效的电子邮件 ID 作为无效示例 MAayeri@zadco.aebaamirnting@icloud.com ,你能不能看看并指导我。 如果您需要其他(电子邮件)正则表达式的帮助,您应该提出一个新问题。 好的,我会发布我的问题

以上是关于pyspark 中的正则表达式来检查字母和空格(也可以使用 uni 代码)的主要内容,如果未能解决你的问题,请参考以下文章

需要一个包含至少一个数字、零个或多个字母、没有空格、最小/最大的正则表达式

只需要一个正则表达式来检查字符串中的“2 个字母和 4 个数字”

正则表达式:匹配字母数字和空格,但前导空格除外

IBAN 的正则表达式允许空格并检查确切长度

正则表达式匹配指定数据和字母

正则表达式,检测字符串中没有空格