火花数据框计算列

Posted 2023-03-31

技术标签:

【中文标题】火花数据框计算列【英文标题】：spark dataframe calculated column 【发布时间】：2016-06-18 16:41:04 【问题描述】：

我正在学习 spark (scala)，并且正在创建一个带有派生列的数据框。我正在尝试找出最佳做法。

我的用例有 2 个派生列，它们查找另一列的值 - 例如 -

if (col22 = "USD") then col1 = "US" elseif (col22 = "CDN" the col1 = "CA" else null)

另一个用例是

if(col23 = "us" && col100 = "abc") then col2 = "10" else if (col23 = "us" && col100 = "bacd" && col99 is null then col2 = 11 else null)

问题 - 我已经为上述计算编写了 UDF 函数。我想知道有没有更好的方法来做到这一点？写一个udf函数是最好的做法。我只会在我的代码中使用这些函数一次。

我的 Scala 代码 -

def udf1 = udf((col22: String)  (col22) match 
    case col22 if (col22 == "USD") => "US"
    case col22 if (col22 == "CDN") => "CA"
    case _ => null   )

val df1= df.select($"col1", $"col2", udf1($"col22").as("newcol"), udf2($"col23", $"col100").as(newcol2))

【问题讨论】：

【参考方案1】：

你可以这样做：

val df1 = df.withColumn(
  "newcol",
  when($"col22" === "USD", lit("US")).otherwise(
    when($"col22" === "CDN", lit("CA")).otherwise(lit(null))
  )
)

【讨论】：

是使用内联代码（在您的示例中）还是我们应该使用 udf 的最佳做法？除非必要，否则不应使用 UDF，但内联也不是硬性要求。您可以像编写任何其他代码一样编写 SQL 表达式。

以上是关于火花数据框计算列的主要内容，如果未能解决你的问题，请参考以下文章

组合并计算火花数据框中的 json 列

遍历火花数据框中的列并计算最小值最大值

计算火花数据框中所有列（300 列）的每个不同值的出现次数

聚合火花数据框中的多列（所有组合）

火花指数移动平均线

jsp下拉列框不可编辑，<select></select> ；只能选择下拉框的值，而不能手动去输入值