Pyspark - 用 pyspark 中的第一个单词替换 2 个或更多连续单词

Posted 2023-03-31

技术标签:

【中文标题】Pyspark - 用 pyspark 中的第一个单词替换 2 个或更多连续单词【英文标题】：Pyspark - Replace 2 or more consecutive words with first word in pysaprk 【发布时间】：2020-10-30 23:55:56 【问题描述】：

我有一个超过 10000 行的 pyspark 数据框。我想用第一个出现的词替换连续的词。我希望在 pyspark 中完成。

这是带有单词列表的 pyspark 表。每个单词列表都与每个日期相关。

---------------------------------------------------------------------------------
| event_dt   | words                                                            |
---------------------------------------------------------------------------------
| 09/02/2020 |[cell cell option option phone phone talk talk pay pay       ...] |
| 09/05/2020 |[understand understand capable capable optimizing optimizing,...] |

还有更多行。

我想要的结果如下所示，每行都有单词，字符串类型。

-------------------------------------------------------------------------------
| event_dt   | words                                                          |
-------------------------------------------------------------------------------
| 09/02/2020 |cell option phone talk pay  ... (continues from above table)    |
| 09/05/2020 |understand capable optimizing paying ... (continues...)         |

【问题讨论】：

原来words列的数据类型是ArrayType还是StringType？ 【参考方案1】：

不确定PySpark 是否有更好的规定，但我能想到的一种简单方法是：

假设words[event_dt_1] 表示给定日期event_dt_1 的所有特殊词的Python list。

您可以使用set(words[event_dt_1]) 将list 转换为set，这是一个不能重复的数据结构。

然后您可以使用list(set(words[event_dt_1])) 将带有唯一单词的set 转换回list。

【讨论】：

以上是关于Pyspark - 用 pyspark 中的第一个单词替换 2 个或更多连续单词的主要内容，如果未能解决你的问题，请参考以下文章