Apache Spark reductionByWindow 函数在哪里执行?

Posted

技术标签:

【中文标题】Apache Spark reductionByWindow 函数在哪里执行?【英文标题】:Where is executed the Apache Spark reductionByWindow function? 【发布时间】:2015-06-24 15:49:24 【问题描述】:

我尝试学习 apache spark,但我无法从 documentation 了解窗口操作的工作原理。

我有两个工作节点,我使用 Kafka Spark Utils 从主题创建 DStream。

在这个 DStream 上,我应用了 map 函数和 reductionByWindow

我不明白reductionByWindow 是在每个工作人员上还是在驱动程序中执行。

我在谷歌上搜索过,没有任何结果。

谁能解释一下?

【问题讨论】:

【参考方案1】:

接收和处理数据都发生在工作节点上。 Driver 创建负责数据收集的接收器(在工作节点上),并定期启动作业以处理收集的数据。其他一切几乎都是标准的 RDD 和正常的 Spark 作业。

【讨论】:

以上是关于Apache Spark reductionByWindow 函数在哪里执行?的主要内容,如果未能解决你的问题,请参考以下文章

值 toDF 不是 org.apache.spark.rdd.RDD[(Long, org.apache.spark.ml.linalg.Vector)] 的成员

Spark 错误 - 值文本文件不是 org.apache.spark.sparkcontext 的成员

Apache Spark :org.apache.spark.sql.Dataset.drop(String... colNames) 方法用于 Java

Driver stacktrace: at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGSchedul(

apache storm apache spark哪个更火

如何选择Apache Spark和Apache Flink