Spark DAG 可视化中的绿色阴影框是啥意思?

Posted

技术标签:

【中文标题】Spark DAG 可视化中的绿色阴影框是啥意思?【英文标题】:What do green-shaded boxes in Spark DAG Visualization mean?Spark DAG 可视化中的绿色阴影框是什么意思? 【发布时间】:2017-07-04 18:03:54 【问题描述】:

在 Spark Web UI 中,有两种 DAG 可视化,一种用于 Job:

舞台的另一个:

正如here 所解释的那样。该博客文章确实解释了 Job 的 DAG 中的绿点,但是,它没有说明 Stage 的 DAG 中的那些绿色阴影框。有人可以给个提示吗?

更新:如果这也意味着指示的代码是缓存数据的位置,我们可以做些什么来提高性能?

【问题讨论】:

What does "Stage Skipped" mean in Apache Spark web UI?的可能重复 @FuzzY,我下面的回答没有回答你的问题吗? 【参考方案1】:

在你提供的link中提到了

第二,第一阶段缓存了一个RDD(用绿色高亮表示)

因此,绿色框表示它们正在被缓存,并且将来对这些 rdds 的引用不必从头开始生成。

【讨论】:

我的理解是缓存是关于数据而不是计算阶段。如果 Stage 16 包含 2 个缓存查询,为什么它没有变灰? 你知道得更好@JacekLaskowski,所以我不会和你争论,因为我通过阅读你的书了解到火花。但是我想说,可能是代码被设计成在groupBy之后缓存。 感谢您的客气话。然而,我们可以专注于讨论手头的话题吗?那么,您认为即使包含缓存的 RDD,stage 也没有显示为灰色的原因是什么? groupBy 之前的阶段如您所见是灰色的。 为什么?你是说RDD缓存之前的阶段应该总是灰色的吗?不过这和截图不一致吧?

以上是关于Spark DAG 可视化中的绿色阴影框是啥意思?的主要内容,如果未能解决你的问题,请参考以下文章

xcode内存调试器中的蓝色和绿色是啥意思

matlab弹出这个提示框是啥意思啊?

Spark中的“RDD可以存储在内存中”是啥意思?

labview里蓝色的数据框是啥

Apache Spark 和 Apache Flink 中的“流”是啥意思?

了解 Spark 分区