spark分组取 topN

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了spark分组取 topN相关的知识,希望对你有一定的参考价值。

SPARK用scala实现分组取topN

原文件:

class1 33

class2 56

class1 87

class2 77

class1 76

class2 88

class1 95

class1 74

class2 85

class2 67

class2 77

class1 99

class1 59

class2 60

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.commons.collections.map.Flat3Map


object GroupTopN {

  

  def main(args: Array[String]): Unit = {

    

          val conf = new SparkConf()

                  .setAppName("TopN")

                  .setMaster("local")

          val sc = new SparkContext(conf)

          val lines = sc.textFile("C://Users//Administrator//Desktop//spark//groupTopN.txt", 1)

          val pairs = lines.map { line => line.split(" ")}

          val xx = pairs.map { pair => (pair(0),pair(1).toInt) }

          val sort = xx.groupByKey()

          val result = sort.map(s=>(s._1,s._2.toList.sorted(Ordering.Int).take(4)))

          result.foreach(r => println(r._1+""+r._2))       

  }

  

}


以上是关于spark分组取 topN的主要内容,如果未能解决你的问题,请参考以下文章

使用dataframe解决spark TopN问题:分组排序取TopN

Spark 两种方法计算分组取Top N

Spark中分组后的TopN,以及Spark的优化(重点)

spark TopN问题:dataframe和RDD比较

Hive分组取TOPN数据

Spark:求出分组内的TopN