Scala(Spark)连接数据框中的列[重复]

Posted

技术标签:

【中文标题】Scala(Spark)连接数据框中的列[重复]【英文标题】:Scala (Spark) concatenate Columns in a dataframe [duplicate] 【发布时间】:2021-09-02 15:28:59 【问题描述】:

下面的代码如何连接列表中的多个值?

concat(myList.map(fld => col(fld)): _*)

【问题讨论】:

什么问题? ":_*" - 将数组转换为可变参数:***.com/questions/6051302/… ? 【参考方案1】:

根据 Spark documentation,concat 函数的签名是 concat(col1, col2, ..., colN)。鉴于您的列表包含列名,即:c1, c2 ... cNmap 会将其中的每一个转换为 Column 类对象。使用col 函数完成转换。最后,_* 将解包(转换为 Column)列表项,类似于 python 的 * operator 的工作方式,分配 concat 参数。

【讨论】:

谢谢,这是 scala 而不是 python。 _* 在 scala 中是否同样工作? 没错!顺便here你可以找到concat的代码

以上是关于Scala(Spark)连接数据框中的列[重复]的主要内容,如果未能解决你的问题,请参考以下文章

使用 pyspark 将 Spark 数据框中的列转换为数组 [重复]

将前导零添加到 Spark 数据框中的列 [重复]

过滤包含Scala Spark数据帧中数组的列中的数组长度[重复]

如何规范化 spark (scala) 中的列中的全角字符

Spark 中的数据框比较:Scala

如何在 Scala/Spark 的数据框中扩展数组 [重复]