spark-sql/Scala 中的反透视列名是数字

Posted

技术标签:

【中文标题】spark-sql/Scala 中的反透视列名是数字【英文标题】:Unpivot in spark-sql/Scala column names are numbers 【发布时间】:2020-07-13 22:20:18 【问题描述】:

我已经尝试了这篇文章Unpivot in spark-sql/pyspark 中针对 Scala 描述的内置堆栈函数,并且对于使用包含字母的代码标识的每一列都可以正常工作,但在代码只是数字的那些列中则不行。

我有一个看起来像的数据框 df this

我按照链接答案中的说明申请了:

val result = df.select($"Id", expr("stack(3, '00C', 00C, '0R5', 0R5, '234', 234)"))

结果is this one

我想要的是第 234 行的值是 0 as it should be。

【问题讨论】:

【参考方案1】:

因为 234 是数字 & 在 SQL 中,如果您选择任何数字,它将返回与值相同的数字,您需要告诉编译器 234 是列名而不是数字,您必须使用数字周围的反引号 (`),即 `234`

检查下面的代码。

scala> val df = Seq(("xyz",0,1,0)).toDF("Id","00C","0R5","234")
df: org.apache.spark.sql.DataFrame = [Id: string, 00C: int ... 2 more fields]

scala> df.select($"Id", expr("stack(3, '00C', 00C, '0R5', 0R5, '234',`234`)")).show(false)
+---+----+----+
|Id |col0|col1|
+---+----+----+
|xyz|00C |0   |
|xyz|0R5 |1   |
|xyz|234 |0   |
+---+----+----+

【讨论】:

在这上面花了很多时间,你的回答有帮助!谢谢!

以上是关于spark-sql/Scala 中的反透视列名是数字的主要内容,如果未能解决你的问题,请参考以下文章

PostgreSQL 中的反透视表

Access SQL 中的反透视

SQL Server 中的反透视表

Databricks/Spark SQL 中的反透视表

R - data.table 行中的反透视列表

SQL - 一列的反透视结果