IF Then ELSE 的 Spark 等效项

Posted 2023-03-23

技术标签:

【中文标题】IF Then ELSE 的 Spark 等效项【英文标题】：Spark Equivalent of IF Then ELSE 【发布时间】：2016-12-27 03:46:16 【问题描述】：

我早些时候在这里看到过这个问题，我从中吸取了教训。但是，我不确定为什么当我觉得它应该工作时会出现错误。

我想通过一些规则在现有 Spark DataFrame 中创建一个新列。这是我写的。 iris_spark 是具有分类变量 iris_spark 的数据框，该变量具有三个不同的类别。

from pyspark.sql import functions as F

iris_spark_df = iris_spark.withColumn(
    "Class", 
   F.when(iris_spark.iris_class == 'Iris-setosa', 0, F.when(iris_spark.iris_class == 'Iris-versicolor',1)).otherwise(2))

引发以下错误。

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-157-21818c7dc060> in <module>()
----> 1 iris_spark_df=iris_spark.withColumn("Class",F.when(iris_spark.iris_class=='Iris-setosa',0,F.when(iris_spark.iris_class=='Iris-versicolor',1)))

TypeError: when() takes exactly 2 arguments (3 given)


---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-157-21818c7dc060> in <module>()
----> 1 iris_spark_df=iris_spark.withColumn("Class",F.when(iris_spark.iris_class=='Iris-setosa',0,F.when(iris_spark.iris_class=='Iris-versicolor',1)))

TypeError: when() takes exactly 2 arguments (3 given)

知道为什么吗？

【问题讨论】：

【参考方案1】：

正确的结构是：

(when(col("iris_class") == 'Iris-setosa', 0)
.when(col("iris_class") == 'Iris-versicolor', 1)
.otherwise(2))

相当于

CASE 
    WHEN (iris_class = 'Iris-setosa') THEN 0
    WHEN (iris_class = 'Iris-versicolor') THEN 1 
    ELSE 2
END

或：

(when(col("iris_class") == 'Iris-setosa', 0)
    .otherwise(when(col("iris_class") == 'Iris-versicolor', 1)
        .otherwise(2)))

相当于：

CASE WHEN (iris_class = 'Iris-setosa') THEN 0 
     ELSE CASE WHEN (iris_class = 'Iris-versicolor') THEN 1 
               ELSE 2 
          END 
END

通用语法：

when(condition, value).when(...)

或

when(condition, value).otherwise(...)

您可能与 Hive IF 条件混淆了：

IF(condition, if-true, if-false)

只能在支持 Hive 的原始 SQL 中使用。

【讨论】：

添加更多上下文：为此您需要from pyspark.sql.functions import when。当您链接多个when 而中间没有otherwise 时，请注意，当多个when 为真时，只会评估第一个真when。【参考方案2】：

有不同的方法可以实现 if-then-else。

在 DataFrame API 中使用 when 函数。您可以在 when 中指定条件列表，也可以在其他情况下指定您需要的值。您也可以以嵌套形式使用此表达式。

expr 函数。使用“expr”函数，您可以在 expr 中传递 SQL 表达式。 PFB 示例。在这里，我们正在根据月份列创建新列“季度”。

cond = """case when month > 9 then 'Q4'
            else case when month > 6 then 'Q3'
                else case when month > 3 then 'Q2'
                    else case when month > 0 then 'Q1'
                        end
                    end
                end
            end as quarter"""

newdf = df.withColumn("quarter", expr(cond))

selectExpr 函数。我们还可以使用可以接受 SQL 表达式的 select 函数的变体。 PFB 示例。

    cond = """case when month > 9 then 'Q4'
                else case when month > 6 then 'Q3'
                    else case when month > 3 then 'Q2'
                        else case when month > 0 then 'Q1'
                            end
                        end
                    end
                end as quarter"""

    newdf = df.selectExpr("*", cond)

【讨论】：

【参考方案3】：

Spark 中的条件语句

在 DataFrame 上使用“when else” 在 DataFrame 上使用“case when” 使用 && 和 || 运算符

import org.apache.spark.sql.functions.when, _
import spark.sqlContext.implicits._

val spark: SparkSession = SparkSession.builder().master("local[1]").appName("SparkByExamples.com").getOrCreate()

val data = List(("James ","","Smith","36636","M",60000),
        ("Michael ","Rose","","40288","M",70000),
        ("Robert ","","Williams","42114","",400000),
        ("Maria ","Anne","Jones","39192","F",500000),
        ("Jen","Mary","Brown","","F",0))

val cols = Seq("first_name","middle_name","last_name","dob","gender","salary")
val df = spark.createDataFrame(data).toDF(cols:_*)

1.在 DataFrame 上使用“when else”

用新值替换性别的值

val df1 = df.withColumn("new_gender", when(col("gender") === "M","Male")
      .when(col("gender") === "F","Female")
      .otherwise("Unknown"))

val df2 = df.select(col("*"), when(col("gender") === "M","Male")
      .when(col("gender") === "F","Female")
      .otherwise("Unknown").alias("new_gender"))

2。在 DataFrame 上使用“case when”

val df3 = df.withColumn("new_gender",
  expr("case when gender = 'M' then 'Male' " +
                   "when gender = 'F' then 'Female' " +
                   "else 'Unknown' end"))

或者，

val df4 = df.select(col("*"),
      expr("case when gender = 'M' then 'Male' " +
                       "when gender = 'F' then 'Female' " +
                       "else 'Unknown' end").alias("new_gender"))

3。使用 && 和 ||运营商

val dataDF = Seq(
      (66, "a", "4"), (67, "a", "0"), (70, "b", "4"), (71, "d", "4"
      )).toDF("id", "code", "amt")
dataDF.withColumn("new_column",
       when(col("code") === "a" || col("code") === "d", "A")
      .when(col("code") === "b" && col("amt") === "4", "B")
      .otherwise("A1"))
      .show()

输出：

+---+----+---+----------+
| id|code|amt|new_column|
+---+----+---+----------+
| 66|   a|  4|         A|
| 67|   a|  0|         A|
| 70|   b|  4|         B|
| 71|   d|  4|         A|
+---+----+---+----------+

【讨论】：

答案非常详细，购买 OP 的标签和问题显然是针对 Python 的，而且这个答案完全在 Scala 中完成。通过注意 Python 语法可以进一步改进答案，该语法通常但并不总是与 Scala 等价物非常相似。在 pyspark && 和 ||运算符不存在，它会抛出 SyntaxError。为了更好地理解，请参阅此链接***.com/questions/37707305/…。【参考方案4】：

你可以使用这个： if(exp1, exp2, exp3) 内spark.sql() 其中 exp1 是条件，如果为 true，则给我 exp2，否则给我 exp3。

现在嵌套 if-else 的有趣之处在于。你需要传递里面的每个 exp

brackets "()"
else it will raise error.

示例：

if((1>2), (if (2>3), True, False), (False))

【讨论】：

以上是关于IF Then ELSE 的 Spark 等效项的主要内容，如果未能解决你的问题，请参考以下文章