使用较低的函数将pyspark数据框中单列中的值转换为文本清理中的小写[重复]
Posted
技术标签:
【中文标题】使用较低的函数将pyspark数据框中单列中的值转换为文本清理中的小写[重复]【英文标题】:Convert values in a single column in pyspark dataframe to lowercase in text cleanup using lower function [duplicate] 【发布时间】:2019-02-20 16:36:45 【问题描述】:尝试使用 .lower 函数将 pyspark 数据框单列中的值转换为小写以进行文本清理
import pyspark.sql.functions as f
f.lower(f.col(col("subject")).show()
获取:
SyntaxError: unexpected EOF while parsing
【问题讨论】:
【参考方案1】:你的问题是一个括号,你只需要使用 f.col() 一次。
import pyspark.sql.functions as f
f.lower(f.col("subject")).show()
您需要将其分配给您的数据框:
import pyspark.sql.functions as f
df = df.withColumn("subject",f.lower(f.col("subject")))
df.show()
【讨论】:
【参考方案2】:show
是一种数据帧方法。
假设你的数据框是df
,你可以这样做:
df.withColumn(
"subject",
F.lower(F.col("subject"))
).show()
【讨论】:
以上是关于使用较低的函数将pyspark数据框中单列中的值转换为文本清理中的小写[重复]的主要内容,如果未能解决你的问题,请参考以下文章
提取特定单元格的值并将其填充以代替 pyspark 数据框中的 NA 值