如何在pyspark中将字符串值转换为arrayType

Posted

技术标签:

【中文标题】如何在pyspark中将字符串值转换为arrayType【英文标题】:how to convert a String value to arrayType in pyspark 【发布时间】:2018-12-01 01:10:21 【问题描述】:

我在pyspark dataframe 中有一个类似下面的列,类型是字符串:

现在我想将它们转换为 ArrayType[Long] ,我该怎么做?

【问题讨论】:

您使用的是sparkpython 的哪个版本? b'coz py3 没有长类型。 你可以编写一个简单的udf将现有数据转换为数组(长)。 请不要发布文本数据的截图。它伤害了屏幕阅读器和搜索引擎的用户。您应该 edit 您的帖子以将文本包含为文本。 @BrianMcCutchon 好的,知道了 【参考方案1】:

你必须解析为字符串并使用 split 函数来创建一个数组

df.withColumn('cat_list',split(regexp_replace(col('cat_list'), '\[|\]',''),',').cast('array<float>').cast('array<long>'))

【讨论】:

以上是关于如何在pyspark中将字符串值转换为arrayType的主要内容,如果未能解决你的问题,请参考以下文章

如何在pyspark中将JSON字符串转换为JSON对象

如何在 PySpark 1.6 中将 DataFrame 列从字符串转换为浮点/双精度?

在 PySpark 中将 URI 查询字符串转换为结构键值数组

如何在pyspark中将字符串列转换为ArrayType

如何在 PySpark 中将字符串转换为字典 (JSON) 的 ArrayType

如何在 PySpark 中将 Vector 类型的列转换为数组/字符串类型?