第58课: 广告点击广告累计点击数分析与实现
Posted Frank201608
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第58课: 广告点击广告累计点击数分析与实现相关的知识,希望对你有一定的参考价值。
本节重要讲:广告点击的累计动态更新是如何实现的。
主要采用updateStateByKey算子。
1、PairDStreamFunctions类解析
为了实现广告点击的累计动态更新,主要采用updateStateByKey算子。
该函数的实现在PairDStreamFunctions类中。
以Spark2.0为例,打开源码文件:
spark-2.0.0\\streaming\\src\\main\\scala\\org\\apache\\spark\\streaming\\dstream\\PairDStreamFunctions.scala
PairDStreamFunctions类通过隐式转换为DStream的KV键值对扩展了一些有效的函数 。
定位到updateStateByKey函数的代码块:
/**
* Return a new "state" DStream where the state for each key is updated by applying
* the given function on the previous state of the key and the new values of each key.
* Hash partitioning is used to generate the RDDs with
* Spark's default number of partitions.
* If `this` function returns None, then corresponding
* state key-value pair will be eliminated.
* @tparam S State type
*/
def updateStateByKey[S: ClassTag](
updateFunc: (Seq[V], Option[S]) => Option[S]
): DStream[(K, S)] = ssc.withScope
updateStateByKey(updateFunc, defaultPartitioner())
它也是一个Transformation操作,跟RDD差不多,从一种状态变成一个新的状态。
以上是关于第58课: 广告点击广告累计点击数分析与实现的主要内容,如果未能解决你的问题,请参考以下文章