使用较低的函数将pyspark数据框中单列中的值转换为文本清理中的小写[重复]

Posted

技术标签:

【中文标题】使用较低的函数将pyspark数据框中单列中的值转换为文本清理中的小写[重复]【英文标题】:Convert values in a single column in pyspark dataframe to lowercase in text cleanup using lower function [duplicate] 【发布时间】:2019-02-20 16:36:45 【问题描述】:

尝试使用 .lower 函数将 pyspark 数据框单列中的值转换为小写以进行文本清理

import pyspark.sql.functions as f
f.lower(f.col(col("subject")).show()

获取:

SyntaxError: unexpected EOF while parsing

【问题讨论】:

【参考方案1】:

你的问题是一个括号,你只需要使用 f.col() 一次。

import pyspark.sql.functions as f
f.lower(f.col("subject")).show()

您需要将其分配给您的数据框:

import pyspark.sql.functions as f
df = df.withColumn("subject",f.lower(f.col("subject")))
df.show()

【讨论】:

【参考方案2】:

show 是一种数据帧方法。

假设你的数据框是df,你可以这样做:

df.withColumn(
    "subject", 
    F.lower(F.col("subject"))
).show()

【讨论】:

以上是关于使用较低的函数将pyspark数据框中单列中的值转换为文本清理中的小写[重复]的主要内容,如果未能解决你的问题,请参考以下文章

将 2 列中的值合并为 pandas 数据框中的单列

提取特定单元格的值并将其填充以代替 pyspark 数据框中的 NA 值

如何将 CSV 值与 pyspark 数据框中的单元格中的值分别分隔为新列及其值

listbox的值怎么获取vba

pyspark 数据框为每一行获得第二低的值

在 DataFrame 上应用映射函数