在pyspark中删除所有包含一个字母的行[重复]

Posted

技术标签:

【中文标题】在pyspark中删除所有包含一个字母的行[重复]【英文标题】:drop all rows that contain even one alphabet in pyspark [duplicate] 【发布时间】:2022-01-24 06:49:46 【问题描述】:

pyspark 2.3.1

我到col1 的行应该只包含整数。我正在尝试过滤掉任何包含一个字符的行。如何在 pyspark 中做到这一点?

我试过了

df.select('col1').filter(df.col1.rlike(^[a-zA-Z])) 

但是,包含字母的行也包含整数,因此不会被过滤。

我该怎么做?

【问题讨论】:

【参考方案1】:

您可以尝试选择纯数字行。

df = df.filter('col1 rlike "^[0-9]+$"')
df.show(truncate=False)

【讨论】:

以上是关于在pyspark中删除所有包含一个字母的行[重复]的主要内容,如果未能解决你的问题,请参考以下文章

过滤“pandas”中所有不包含字母(alpha)的行

Pyspark 基于另一个类似的数据框添加或删除数据框中的行

如何在 MYSQL 中选择包含所有字母和数字的行?

python:删除重复的文本行组

pyspark中的内部反连接[重复]

T-SQL:删除所有重复的行但保留一个[重复]