在 Spark Azure Databricks 中创建自定义进度条指示器

Posted

技术标签:

【中文标题】在 Spark Azure Databricks 中创建自定义进度条指示器【英文标题】:Creating a custom progress bar indicator in Spark Azure Databricks 【发布时间】:2020-11-16 18:35:08 【问题描述】:

我想为我在 pyspark Azure Databricks 中运行的作业创建自定义进度条。我尝试使用 matplotlib 执行此操作,方法是创建多个图形并为每个图形一个一个地调用显示,但仅在整个作业完成时才显示输出,因此它不是一个进度条。

有没有一种简单的方法来创建这样的显示,该显示也会随着进度而更新?

感谢您的帮助。

the spark databricks default progress bar

【问题讨论】:

此功能已在 Azure Databricks 中可用:databricks.com/blog/2015/09/23/… 是的,当然,但我说的是您在数据块中运行单元格后的 webui。我想用在我的上下文中更有意义的东西来替换它。 @RoyLevin 我想知道你是否能够解决这个问题 【参考方案1】:

您可以使用“displayhtml”功能通过嵌入式 CSS/javascript 呈现自定义进度条。这是因为“displayHTML”会在您每次调用它时重置单元格输出(只需确保在每次调用之间调用 sleep 几秒钟,这样您就可以看到输出如何变化),但是您还需要更新所有其余部分每次调用的输出

【讨论】:

自DBR v7.1 起,此行为已更改。现在重复调用“displayHTML”函数将新的 HTML 显示添加到单元格输出,而不是重置单元格输出。发行说明还提到此行为是通过“spark.databricks.workspace.multipleResults.enabled”配置控制的,但将其更改为“false”对我不起作用。此外,问题仍然存在,整个作业完成后正在显示输出。

以上是关于在 Spark Azure Databricks 中创建自定义进度条指示器的主要内容,如果未能解决你的问题,请参考以下文章

无法在 azure databricks 中使用 spark 读取 csv 文件

在 Azure Databricks 中编写 spark 数据框

Azure Databricks Spark XML 库 - 尝试读取 xml 文件

如何使我的 Spark Accumulator 统计信息在 Azure Databricks 中可靠?

在 Azure Databricks 的集群 Spark Config 中设置数据湖连接

在 Spark Azure Databricks 中创建自定义进度条指示器