实时监控 Spark 作业

Posted

技术标签:

【中文标题】实时监控 Spark 作业【英文标题】:Monitor Spark Jobs in real time 【发布时间】:2017-03-24 13:55:45 【问题描述】:

我想

为此,我从Spark Monitoring REST API 获取数据并以可视化方式显示。一种解决方案是每 1 秒轮询一次 API。但我想在没有投票的情况下做到这一点。

我们可以做类似Webhook的事情吗?

在此先感谢:)

【问题讨论】:

你的用例是什么,问因为spark有自己的webUI,如果你在yarn上运行,那么yarn也有自己的webUI。 @Pushkr 我必须制作一个 Jupyter notebook 插件,它在提交 Spark Job 时会实时显示详细信息。 【参考方案1】:

我不知道 Webhook,但我认为您可以使用 SparkListener 将 spark 调度程序事件实时推送到您的后端应用程序。

【讨论】:

感谢您的回复。 SparkListener 在 Scala 中可用。我不知道它们是否在 Pyspark 中可用。

以上是关于实时监控 Spark 作业的主要内容,如果未能解决你的问题,请参考以下文章

Spark Streaming 实时计算在甜橙金融监控系统中的应用及优化

flume+sparkStreaming实例 实时监控文件demo

专业的力量 海量日志监控平台(Spark Streaming,实时流式处理系统)

Spark实例-通过HDFS文件实时统计

怎样实时监控sqlserver数据库内记录的变化

自动化基于Spark streaming的SQL服务实时自动化运维