python中怎样在dataframe变量中增加一列

Question

我有一个包含多个列的Spark数据帧。我想在数据帧上添加一列，它是一定数量的列的总和。

例如，我的数据如下所示：

ID var1 var2 var3 var4 var5
a   5     7    9    12   13
b   6     4    3    20   17
c   4     9    4    6    9
d   1     2    6    8    1

我想要添加一列来汇总特定列的行：

ID var1 var2 var3 var4 var5   sums
a   5     7    9    12   13    46
b   6     4    3    20   17    50
c   4     9    4    6    9     32
d   1     2    6    8    10    27

我知道如果您知道要添加的特定列，可以将列添加到一起：

val newdf = df.withColumn("sumofcolumns", df("var1") + df("var2"))

但是可以传递列名列表并将它们一起添加吗？基于这个答案基本上是我想要的，但它使用的是python API而不是scala（Add column sum as new column in PySpark dataframe）我觉得这样的东西会起作用：

//Select columns to sum
val columnstosum = ("var1", "var2","var3","var4","var5")

// Create new column called sumofcolumns which is sum of all columns listed in columnstosum
val newdf = df.withColumn("sumofcolumns", df.select(columstosum.head, columnstosum.tail: _*).sum)

这会抛出错误值sum并不是org.apache.spark.sql.DataFrame的成员。有没有办法对列进行求和？

在此先感谢您的帮助。

Answer 1

另一答案

Answer 2

另一答案

Answer 3

另一答案

python中怎样在dataframe变量中增加一列

在Spark Dataframe中的列列表中添加一列rowums