Spark SQL一列拆分多列

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark SQL一列拆分多列相关的知识,希望对你有一定的参考价值。

参考技术A 将DataFrame中的一列拆分为多列,示例如下:

如何使用 SQL 将一列拆分为多列

【中文标题】如何使用 SQL 将一列拆分为多列【英文标题】:How to split a column into multiple columns using SQL 【发布时间】:2021-12-28 17:32:57 【问题描述】:

我有一个列,其中包含列名和该列的值,格式如下:

column_name
name1: value1 name2: valu2 name3: value3 name4: value4 name5: value5

我希望列采用以下格式,而不是上面的设置:

name1 name2 name3 name4 name5
value1 value2 value3 value4 value5

问题是这些值在整个列中并不一致,有时我会有这些值的组合,有时没有,有时只有一个,但不管顺序如何,所有这些列都会必须创建。如何以我不必像这样指定值的通用方式调用它们:

CASE WHEN CHARINDEX(' ',column_name)>0 
         then SUBSTRING(column_name,1,CHARINDEX(' ',column_name)-1) 
         else column_name end name1, 
    CASE WHEN CHARINDEX(' ',column_name) > 0 
         THEN SUBSTRING(column_name,CHARINDEX(' ',column_name)+1,len(column_name))  
         ELSE NULL END as name2

【问题讨论】:

SQL Server PostgreSQL。请edit你的问题重新标记你真正使用的RDBMS。 【参考方案1】:

在这种情况下,我必须创建一个列类型 JSON,如下所示See the picture

然后您可以将此键值存储为 JSON 数组,并在您想再次使用此数据时对其进行解码。

缺点是你不能直接从数据库中搜索这个数组。

更新:如何在 redshift 上使用 JSON https://docs.aws.amazon.com/redshift/latest/dg/json-functions.html

【讨论】:

我在 Redshift 上执行此操作,我不确定该解决方案是否有帮助,但谢谢。 @WendyVelasquez,有消息称他们在 redshift 上支持原生 JSON here 感谢您提供的信息,一旦我弄清楚它会有所帮助。 @Abdelraouf Ferah。这里的问题是,该表已经在 Redshift 上被摄取,所以它只是我需要修改的一列,不知道如何添加那部分。 欢迎您,您需要将列更改为输入 SUPER 并更改已提取的查询有一个使用列类型 SUPER 的好例子docs.aws.amazon.com/redshift/latest/dg/…

以上是关于Spark SQL一列拆分多列的主要内容,如果未能解决你的问题,请参考以下文章

如何在标准sql-大查询中将一列拆分为多列

sql数据拆分

关于Oracle中实现单列拆分成多列的技术应用

在SQL过程中将一列中的逗号分隔值拆分为多列

如何使用 SQL 将一列拆分为多列

将数据框中的结构类型列拆分为多列