spark 例子groupByKey分组计算

Posted chendapao

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了spark 例子groupByKey分组计算相关的知识,希望对你有一定的参考价值。

spark 例子groupByKey分组计算


例子描述:

【分组、计算】

主要为两部分,将同类的数据分组归纳到一起,并将分组后的数据进行简单数学计算。
难点在于怎么去理解groupBy和groupByKey

原始数据
2010-05-04 12:50,10,10,10
2010-05-05 13:50,20,20,20
2010-05-06 14:50,30,30,30
2010-05-05 13:50,20,20,20
2010-05-06 14:50,30,30,30
2010-05-04 12:50,10,10,10
2010-05-04 11:50,10,10,10

结果数据
2010-05-05 13:50,40,40,40
2010-05-04 12:50,20,20,20
2010-05-06 14:50,60,60,60
2010-05-04 11:50,10,10,10


代码片段:

/* 同类合并、计算 */

val source = Source.fromFile("E:test.txt").getLines.toArray
val sourceRDD = sc.parallelize(source)                                  /* spark单机读取数据 */
sourceRDD
  .map {
    line =>
      val lines = line.split(",")                                         /* 拆分数据 */
      (s"${lines(0)}", s"${lines(1)},${lines(2)},${lines(3)}")            /* 找出同样的数据为K,需要进行计算的为V,拼成map */
  }
  .groupByKey
  .map {                                                      /* 分组,最重要的就是这,同类的数据分组到一起,后面只需要计算V了 */
    case (k, v) =>
      var a, b, c = 0                                                     /* 定义几个存数据的变量,恩,这很java,一般scala中很少见到var */
      v.foreach {                                                         /* 遍历需要计算的V  */
        x =>
          val r = x.split(",")                                            /* 将V拆分 */
          a += r(0).toInt                                                 /* 计算 */
          b += r(1).toInt
          c += r(2).toInt
      }
    s"$k,$a,$b,$c"                                                      /* 拼字符串,返回数据 */
  }
  .foreach(println)












以上是关于spark 例子groupByKey分组计算的主要内容,如果未能解决你的问题,请参考以下文章

spark 例子wordcount topk

任何人都可以在 Spark 中实现 CombineByKey() 而不是 GroupByKey() 来对元素进行分组吗?

[Spark][Python]groupByKey例子

Spark中reduceByKey()和groupByKey()的区别

spark中groupByKey与reducByKey

使用 Java 在 Spark 2.0 中使用数据集的 GroupByKey