Apache Spark reductionByWindow 函数在哪里执行？

Posted 2023-03-31

技术标签:

【中文标题】Apache Spark reductionByWindow 函数在哪里执行？【英文标题】：Where is executed the Apache Spark reductionByWindow function? 【发布时间】：2015-06-24 15:49:24 【问题描述】：

我尝试学习 apache spark，但我无法从 documentation 了解窗口操作的工作原理。

我有两个工作节点，我使用 Kafka Spark Utils 从主题创建 DStream。

在这个 DStream 上，我应用了 map 函数和 reductionByWindow。

我不明白reductionByWindow 是在每个工作人员上还是在驱动程序中执行。

我在谷歌上搜索过，没有任何结果。

谁能解释一下？

【问题讨论】：

【参考方案1】：

接收和处理数据都发生在工作节点上。 Driver 创建负责数据收集的接收器（在工作节点上），并定期启动作业以处理收集的数据。其他一切几乎都是标准的 RDD 和正常的 Spark 作业。

【讨论】：

以上是关于Apache Spark reductionByWindow 函数在哪里执行？的主要内容，如果未能解决你的问题，请参考以下文章

值 toDF 不是 org.apache.spark.rdd.RDD[(Long, org.apache.spark.ml.linalg.Vector)] 的成员

Spark 错误 - 值文本文件不是 org.apache.spark.sparkcontext 的成员

Apache Spark :org.apache.spark.sql.Dataset.drop(String... colNames) 方法用于 Java

Driver stacktrace: at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGSchedul(

apache storm apache spark哪个更火

如何选择Apache Spark和Apache Flink