当我们重新启动 Azure Databricks 群集时,内部会发生啥?

Posted

技术标签:

【中文标题】当我们重新启动 Azure Databricks 群集时,内部会发生啥?【英文标题】:What happens internally when we restart Azure Databricks cluster?当我们重新启动 Azure Databricks 群集时,内部会发生什么? 【发布时间】:2021-01-28 13:44:42 【问题描述】:

当我们遇到很多阶段故障时,我们通常会重新启动集群以避免阶段故障。我想知道

1)当我们重新启动它时到底发生了什么。

2) 是否从集群中移除元数据/缓存?

3)有没有其他方法可以在不重启集群的情况下满足上述要求。

【问题讨论】:

【参考方案1】:

当您重新启动集群时,spark 应用程序会重新初始化,就像从头开始擦除集群中的所有缓存一样。

当您重新启动、火花初始化和引导所有库加载 Metastore 和 DBFS 时,您会在集群驱动程序日志中看到这一点。

立即快速重启(不超过约 5 分钟的间隔)不会做的一件事是不会取消配置托管应用程序的底层 VM 实例。如果您认为 VM 处于不良状态,请终止 - 间隔 5 分钟,然后重新开始。 (这对池上的集群不起作用,因为池即使在终止后也能维持虚拟机。

【讨论】:

以上是关于当我们重新启动 Azure Databricks 群集时,内部会发生啥?的主要内容,如果未能解决你的问题,请参考以下文章

Azure Databricks:在没有 Internet 访问的情况下在虚拟网络下导入 PyPI 库

如何将大量 DDL 从 Dev 导入/重新创建到 Azure Databricks 的 Prod 实例

如何在 Azure Databricks 中使用 JDBC 从 PostgreSQL 读取表数据?

Azure Databricks 的 Azure DevOps 管道

使用 6.4 版扩展支持(包括 Apache Spark 2.4.5、Scala 2.11)在 azure databricks 上启动集群时出现问题

Azure Databricks 上的最大消息大小