Spark sql分组和总和更改列名?
Posted
技术标签:
【中文标题】Spark sql分组和总和更改列名?【英文标题】:Spark sql group by and sum changing column name? 【发布时间】:2018-10-11 10:07:27 【问题描述】:在这个数据框中,我找到了每个组的总工资。在 Oracle 中,我会使用此代码
select job_id,sum(salary) as "Total" from hr.employees group by job_id;
在 Spark SQL 中尝试过同样的方法,我面临两个问题
empData.groupBy($"job_id").sum("salary").alias("Total").show()
-
别名总计未显示,而是显示“sum(salary)”列
我无法使用$
(我认为是Scala SQL 语法)。遇到编译问题
empData.groupBy($"job_id").sum($"salary").alias("Total").show()
有什么想法吗?
【问题讨论】:
Column alias after groupBy in pyspark的可能重复 【参考方案1】:如果您想提供别名,请使用聚合函数 .agg()
。这接受 scala 语法 ($" ")
empData.groupBy($"job_id").agg(sum($"salary") as "Total").show()
如果您不想使用.agg()
,也可以使用.select()
提供别名:
empData.groupBy($"job_id").sum("salary").select($"job_id", $"sum(salary)".alias("Total")).show()
【讨论】:
以上是关于Spark sql分组和总和更改列名?的主要内容,如果未能解决你的问题,请参考以下文章
在 SQL Server 中使用 group by 的列名总和?
两个 Spark DataFrame 的简单连接因“org.apache.spark.sql.AnalysisException:无法解析列名”而失败