实时监控 Spark 作业
Posted
技术标签:
【中文标题】实时监控 Spark 作业【英文标题】:Monitor Spark Jobs in real time 【发布时间】:2017-03-24 13:55:45 【问题描述】:我想
为此,我从Spark Monitoring REST API 获取数据并以可视化方式显示。一种解决方案是每 1 秒轮询一次 API。但我想在没有投票的情况下做到这一点。
我们可以做类似Webhook的事情吗?
在此先感谢:)
【问题讨论】:
你的用例是什么,问因为spark有自己的webUI,如果你在yarn上运行,那么yarn也有自己的webUI。 @Pushkr 我必须制作一个 Jupyter notebook 插件,它在提交 Spark Job 时会实时显示详细信息。 【参考方案1】:我不知道 Webhook,但我认为您可以使用 SparkListener 将 spark 调度程序事件实时推送到您的后端应用程序。
【讨论】:
感谢您的回复。 SparkListener 在 Scala 中可用。我不知道它们是否在 Pyspark 中可用。以上是关于实时监控 Spark 作业的主要内容,如果未能解决你的问题,请参考以下文章
Spark Streaming 实时计算在甜橙金融监控系统中的应用及优化
flume+sparkStreaming实例 实时监控文件demo