使用 PySpark 将列转换为小写

Posted

技术标签:

【中文标题】使用 PySpark 将列转换为小写【英文标题】:Convert column to lowercase with PySpark 【发布时间】:2020-02-25 17:08:55 【问题描述】:

我想将“频道”列中的所有值转换为小写。我有 df 在 jupyter notebook 中使用 PySpark 创建的。我尝试了here 的代码,但出现错误。所以它不是重复的。

我的数据如下所示:

id     Channel     Brand
123    Hair        Fashion
124    Nails       Fashion 

我希望它是以下内容:

id     Channel     Brand
123    hair        Fashion
124    nails       Fashion 

我尝试了以下方法:

new_df = df.select(lower(df.Channel)).alias('Channel')

这会将值转换为小写,但我丢失了其他列。

【问题讨论】:

【参考方案1】:

你可以这样做:

new_df = df.withColumn('Channel', lower(df.Channel))

这也将保留其他列。

【讨论】:

以上是关于使用 PySpark 将列转换为小写的主要内容,如果未能解决你的问题,请参考以下文章

PySpark - ValueError:无法将列转换为布尔值

将列字典从不同的数据帧转换为数据帧:pyspark

通过使用pyspark将列转换为行来解析数据框中的Json字符串列表?

将pyspark数据框的列转换为小写

使用较低的函数将pyspark数据框中单列中的值转换为文本清理中的小写[重复]

将列的内容拆分为pyspark中的行