Spark SQL一列拆分多列

Posted 2023-04-13

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Spark SQL一列拆分多列相关的知识，希望对你有一定的参考价值。

参考技术A 将DataFrame中的一列拆分为多列，示例如下：

如何使用 SQL 将一列拆分为多列

【中文标题】如何使用 SQL 将一列拆分为多列【英文标题】：How to split a column into multiple columns using SQL 【发布时间】：2021-12-28 17:32:57 【问题描述】：

我有一个列，其中包含列名和该列的值，格式如下：

column_name
name1: value1 name2: valu2 name3: value3 name4: value4 name5: value5

我希望列采用以下格式，而不是上面的设置：

name1	name2	name3	name4	name5
value1	value2	value3	value4	value5

问题是这些值在整个列中并不一致，有时我会有这些值的组合，有时没有，有时只有一个，但不管顺序如何，所有这些列都会必须创建。如何以我不必像这样指定值的通用方式调用它们：

CASE WHEN CHARINDEX(' ',column_name)>0 
         then SUBSTRING(column_name,1,CHARINDEX(' ',column_name)-1) 
         else column_name end name1, 
    CASE WHEN CHARINDEX(' ',column_name) > 0 
         THEN SUBSTRING(column_name,CHARINDEX(' ',column_name)+1,len(column_name))  
         ELSE NULL END as name2

【问题讨论】：

SQL Server PostgreSQL。请edit你的问题重新标记你真正使用的RDBMS。 【参考方案1】：

在这种情况下，我必须创建一个列类型 JSON，如下所示See the picture

然后您可以将此键值存储为 JSON 数组，并在您想再次使用此数据时对其进行解码。

缺点是你不能直接从数据库中搜索这个数组。

更新：如何在 redshift 上使用 JSON https://docs.aws.amazon.com/redshift/latest/dg/json-functions.html

【讨论】：

我在 Redshift 上执行此操作，我不确定该解决方案是否有帮助，但谢谢。 @WendyVelasquez，有消息称他们在 redshift 上支持原生 JSON here 感谢您提供的信息，一旦我弄清楚它会有所帮助。 @Abdelraouf Ferah。这里的问题是，该表已经在 Redshift 上被摄取，所以它只是我需要修改的一列，不知道如何添加那部分。欢迎您，您需要将列更改为输入 SUPER 并更改已提取的查询有一个使用列类型 SUPER 的好例子docs.aws.amazon.com/redshift/latest/dg/…

以上是关于Spark SQL一列拆分多列的主要内容，如果未能解决你的问题，请参考以下文章

如何在标准sql-大查询中将一列拆分为多列

sql数据拆分

关于Oracle中实现单列拆分成多列的技术应用

在SQL过程中将一列中的逗号分隔值拆分为多列

如何使用 SQL 将一列拆分为多列

将数据框中的结构类型列拆分为多列