Spark sql分组和总和更改列名？

Posted 2023-04-15

技术标签:

【中文标题】Spark sql分组和总和更改列名？【英文标题】：Spark sql group by and sum changing column name? 【发布时间】：2018-10-11 10:07:27 【问题描述】：

在这个数据框中，我找到了每个组的总工资。在 Oracle 中，我会使用此代码

select job_id,sum(salary) as "Total" from hr.employees group by job_id;

在 Spark SQL 中尝试过同样的方法，我面临两个问题

empData.groupBy($"job_id").sum("salary").alias("Total").show()

我无法使用$（我认为是Scala SQL 语法）。遇到编译问题

 empData.groupBy($"job_id").sum($"salary").alias("Total").show()

有什么想法吗？

【问题讨论】：

Column alias after groupBy in pyspark的可能重复 【参考方案1】：

如果您想提供别名，请使用聚合函数 .agg()。这接受 scala 语法 ($" ")

empData.groupBy($"job_id").agg(sum($"salary") as "Total").show()

如果您不想使用.agg()，也可以使用.select()提供别名：

empData.groupBy($"job_id").sum("salary").select($"job_id", $"sum(salary)".alias("Total")).show()

【讨论】：

以上是关于Spark sql分组和总和更改列名？的主要内容，如果未能解决你的问题，请参考以下文章