使用 PySpark 将列转换为小写
Posted
技术标签:
【中文标题】使用 PySpark 将列转换为小写【英文标题】:Convert column to lowercase with PySpark 【发布时间】:2020-02-25 17:08:55 【问题描述】:我想将“频道”列中的所有值转换为小写。我有 df
在 jupyter notebook 中使用 PySpark 创建的。我尝试了here 的代码,但出现错误。所以它不是重复的。
我的数据如下所示:
id Channel Brand
123 Hair Fashion
124 Nails Fashion
我希望它是以下内容:
id Channel Brand
123 hair Fashion
124 nails Fashion
我尝试了以下方法:
new_df = df.select(lower(df.Channel)).alias('Channel')
这会将值转换为小写,但我丢失了其他列。
【问题讨论】:
【参考方案1】:你可以这样做:
new_df = df.withColumn('Channel', lower(df.Channel))
这也将保留其他列。
【讨论】:
以上是关于使用 PySpark 将列转换为小写的主要内容,如果未能解决你的问题,请参考以下文章
PySpark - ValueError:无法将列转换为布尔值
通过使用pyspark将列转换为行来解析数据框中的Json字符串列表?