第58课: 广告点击广告累计点击数分析与实现

Posted Frank201608

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第58课: 广告点击广告累计点击数分析与实现相关的知识,希望对你有一定的参考价值。

本节重要讲:广告点击的累计动态更新是如何实现的。
主要采用updateStateByKey算子。


1、PairDStreamFunctions类解析

为了实现广告点击的累计动态更新,主要采用updateStateByKey算子。
该函数的实现在PairDStreamFunctions类中。

以Spark2.0为例,打开源码文件:
spark-2.0.0\\streaming\\src\\main\\scala\\org\\apache\\spark\\streaming\\dstream\\PairDStreamFunctions.scala

PairDStreamFunctions类通过隐式转换为DStream的KV键值对扩展了一些有效的函数 。
定位到updateStateByKey函数的代码块:

/**
   * Return a new "state" DStream where the state for each key is updated by applying
   * the given function on the previous state of the key and the new values of each key.
   * Hash partitioning is used to generate the RDDs with 
   * Spark's default number of partitions.
   * If `this` function returns None, then corresponding 
   * state key-value pair will be eliminated.
   * @tparam S State type
   */
  def updateStateByKey[S: ClassTag](
      updateFunc: (Seq[V], Option[S]) => Option[S]
    ): DStream[(K, S)] = ssc.withScope 
    updateStateByKey(updateFunc, defaultPartitioner())
  

它也是一个Transformation操作,跟RDD差不多,从一种状态变成一个新的状态。

以上是关于第58课: 广告点击广告累计点击数分析与实现的主要内容,如果未能解决你的问题,请参考以下文章

第54课: 作业讲解与广告点击实现代码

第53课: Spark大型项目广告点击项目技术骨架实现之Spark+Kafka+Flume实战

基于MySQL实现广告精准投放

淘宝广告用户点击预测(python)

广告反作弊的常用技术分析

广告反作弊的常用技术分析