PySpark Dataframe:将一个单词附加到列的每个值

Posted

技术标签:

【中文标题】PySpark Dataframe:将一个单词附加到列的每个值【英文标题】:PySpark Dataframe: append to each value of a column a word 【发布时间】:2018-02-27 09:27:30 【问题描述】:

我想在 pyspark 数据框中的每个列的值上附加一个单词(例如来自单词列表)。我想只是将它转换为 pandas 框架,因为它更容易,但我需要在 pyspark 上进行。有任何想法吗?谢谢:)

【问题讨论】:

请展示您尝试过的内容。 【参考方案1】:

您可以使用concat 函数轻松完成:

from pyspark.sql import functions as F
for col in df.columns:
    df.withColumn(col, F.concat(F.col(col), F.lit("new_word"))

【讨论】:

以上是关于PySpark Dataframe:将一个单词附加到列的每个值的主要内容,如果未能解决你的问题,请参考以下文章

当列文本包含超过 10 个单词时过滤 pyspark DataFrame

pyspark dataframe foreach 填充列表

用修改后的 PySpark DataFrame 覆盖现有 Parquet 数据集

将字符串拆分附加到 Pandas DataFrame [关闭]

如何将向量拆分为列 - 使用 PySpark

如何用来自另一个 DataFrame 的匹配 id 替换单词(在一个 DataFrame 中)?