实时计算DStream下求平均值(reduceByKey or combineByKey)

Posted 暗时间&量变

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了实时计算DStream下求平均值(reduceByKey or combineByKey)相关的知识,希望对你有一定的参考价值。

对NC市的卡口数据进行分析,大概所有卡口每15秒接入的有效数据在3000条左右,现在产品经理要求对这些数据进行拥堵分析,通过两个卡口之间的车辆行驶时长来判断道路的拥堵情况。具体算法不展开。其中我需要做的是用Spark Streaming把Kafka的数据接进来,然后根据卡口数据中的车牌和经过时间找到之前的过车记录,取出时间差,即为该路段的一条行驶时长,根据路段编码求时长的平均值。

 我发现RDD的combineByKey只需要传入前三个参数,而DStream则必须传入完整的5个参数,第四个参数不知道怎么用,找遍了github和Spark官网也没有,晚点再去研究一下!

          def combineByKey[C](  

  1.       createCombiner: V => C,  
  2.       mergeValue: (C, V) => C,  
  3.       mergeCombiners: (C, C) => C,  
  4.       partitioner: Partitioner,  
  5.       mapSideCombine: Boolean = true)

只能用reduceByKey 代替了! 

未完待续~~~~~~~~~~~

以上是关于实时计算DStream下求平均值(reduceByKey or combineByKey)的主要内容,如果未能解决你的问题,请参考以下文章

Spark Streaming实时计算框架学习01

spark streamingcontext

Spark DataFrame 的通用“reduceBy”或“groupBy + aggregate”功能

流数据

SparkStreaming运行原理

Spark Streaming架构原理详解!