Apache Spark reductionByWindow 函数在哪里执行?
Posted
技术标签:
【中文标题】Apache Spark reductionByWindow 函数在哪里执行?【英文标题】:Where is executed the Apache Spark reductionByWindow function? 【发布时间】:2015-06-24 15:49:24 【问题描述】:我尝试学习 apache spark,但我无法从 documentation 了解窗口操作的工作原理。
我有两个工作节点,我使用 Kafka Spark Utils 从主题创建 DStream。
在这个 DStream 上,我应用了 map
函数和 reductionByWindow
。
我不明白reductionByWindow
是在每个工作人员上还是在驱动程序中执行。
我在谷歌上搜索过,没有任何结果。
谁能解释一下?
【问题讨论】:
【参考方案1】:接收和处理数据都发生在工作节点上。 Driver 创建负责数据收集的接收器(在工作节点上),并定期启动作业以处理收集的数据。其他一切几乎都是标准的 RDD 和正常的 Spark 作业。
【讨论】:
以上是关于Apache Spark reductionByWindow 函数在哪里执行?的主要内容,如果未能解决你的问题,请参考以下文章
值 toDF 不是 org.apache.spark.rdd.RDD[(Long, org.apache.spark.ml.linalg.Vector)] 的成员
Spark 错误 - 值文本文件不是 org.apache.spark.sparkcontext 的成员
Apache Spark :org.apache.spark.sql.Dataset.drop(String... colNames) 方法用于 Java
Driver stacktrace: at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGSchedul(