Spark sql分组和总和更改列名?

Posted

技术标签:

【中文标题】Spark sql分组和总和更改列名?【英文标题】:Spark sql group by and sum changing column name? 【发布时间】:2018-10-11 10:07:27 【问题描述】:

在这个数据框中,我找到了每个组的总工资。在 Oracle 中,我会使用此代码

select job_id,sum(salary) as "Total" from hr.employees group by job_id;

在 Spark SQL 中尝试过同样的方法,我面临两个问题

empData.groupBy($"job_id").sum("salary").alias("Total").show()
    别名总计未显示,而是显示“sum(salary)”列

    我无法使用$(我认为是Scala SQL 语法)。遇到编译问题

     empData.groupBy($"job_id").sum($"salary").alias("Total").show()
    

有什么想法吗?

【问题讨论】:

Column alias after groupBy in pyspark的可能重复 【参考方案1】:

如果您想提供别名,请使用聚合函数 .agg()。这接受 scala 语法 ($" ")

empData.groupBy($"job_id").agg(sum($"salary") as "Total").show()

如果您不想使用.agg(),也可以使用.select()提供别名:

empData.groupBy($"job_id").sum("salary").select($"job_id", $"sum(salary)".alias("Total")).show()

【讨论】:

以上是关于Spark sql分组和总和更改列名?的主要内容,如果未能解决你的问题,请参考以下文章

在 SQL Server 中使用 group by 的列名总和?

Spark DataFrame xml更改列名

使用 spark 更改 bigquery 中嵌套数据的列名

在 Spark 中使用相应的列名(有条件地)更改数据框

如何在 Spark SQL 中使用连字符转义列名

两个 Spark DataFrame 的简单连接因“org.apache.spark.sql.AnalysisException:无法解析列名”而失败