sparksql两种方式的执行效率

Posted 2023-02-26 ZL小屁孩

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了sparksql两种方式的执行效率相关的知识，希望对你有一定的参考价值。

方式一：

  /**使用spark-sql实现的*/
  def rhVisitor(ss: SparkSession,dt: String,per_hour: String,merchant: String): Unit =

    val startTime = System.currentTimeMillis()
    import org.apache.spark.sql.functions._
    val sql = "SELECT visitor_cookie FROM clickstream_flow"
    val rhresult = ss.sql(sql)
      .where(s"dt = '$dt'")
      .where(s"hour = '$per_hour'")
      .where(s"merchant = '$merchant'")
      .filter("visitor_cookie is not null")
      .filter("page_type_name not in ('Other','LoginPage','LoginAction')")
      .filter("http_resp_code = '200' or page_type_name = 'Shoppingcart'")
      .groupBy("visitor_cookie")
      /**聚合计算，并重命名为pv*/
      .agg(count("visitor_cookie") as("pv"))
      /**withColumnRenamed对字段重命名*/
      .withColumnRenamed("visitor_cookie","visitor")
      /**添加新字段，并对此字段进行赋值*/
      .withColumn("dt",lit(s"$dt"))
        .withColumn("hour",lit(s"$per_hour"))
        .withColumn("merchant",lit(s"$merchant"))
      .coalesce(2)

    println("。。。。。。 开始存入hive分区表中 。。。。。。")
    /**把结果存入hive分区表中*/
    rhresult.write.mode(SaveMode.Overwrite).format("hive").insertInto("table_name_copy")
    val endTime = System.currentTimeMillis()
    println("程序运行时间： "+(endTime - startTime)/1000.0+"s")

此方式的大概执行时间为25s左右。

方式二：

    /**使用hive语句，但是计算引擎依然使用spark实现*/
  def rhBounceVisitorHql(ss: SparkSession,dt: String,per_hour: String,merchant: String): Unit =
    val startTime = System.currentTimeMillis()
    import org.apache.spark.sql.functions._
    var hql = s"SELECT visitor_cookie,COUNT(1) AS pv FROM clickstream_flow WHERE dt = '$dt' AND hour = '$per_hour' AND merchant = '$merchant' AND visitor_cookie IS NOT NULL AND page_type_name NOT IN('Other','LoginPage','LoginAction') AND (http_resp_code = '200' OR page_type_name = 'Shoppingcart') GROUP BY visitor_cookie"
    val result: DataFrame = ss.sql(hql)
      .withColumn("dt",lit(s"$dt"))
      .withColumn("hour",lit(s"$per_hour"))
      .withColumn("merchant",lit(s"$merchant"))
      .coalesce(2)
    result.write.mode(SaveMode.Overwrite).format("hive").insertInto("table_name_copy")
    val endTime = System.currentTimeMillis()
    println("hql程序运行时间： "+(endTime - startTime)/1000.0+"s")

此方式的大概运行时间为10s左右。

以上两种方式的运行时间不同，也就是直接hive-spark要比spark sql 算子的执行效率要高？？？

以上是关于sparksql两种方式的执行效率的主要内容，如果未能解决你的问题，请参考以下文章