当我们重新启动 Azure Databricks 群集时,内部会发生啥?
Posted
技术标签:
【中文标题】当我们重新启动 Azure Databricks 群集时,内部会发生啥?【英文标题】:What happens internally when we restart Azure Databricks cluster?当我们重新启动 Azure Databricks 群集时,内部会发生什么? 【发布时间】:2021-01-28 13:44:42 【问题描述】:当我们遇到很多阶段故障时,我们通常会重新启动集群以避免阶段故障。我想知道
1)当我们重新启动它时到底发生了什么。
2) 是否从集群中移除元数据/缓存?
3)有没有其他方法可以在不重启集群的情况下满足上述要求。
【问题讨论】:
【参考方案1】:当您重新启动集群时,spark 应用程序会重新初始化,就像从头开始擦除集群中的所有缓存一样。
当您重新启动、火花初始化和引导所有库加载 Metastore 和 DBFS 时,您会在集群驱动程序日志中看到这一点。
立即快速重启(不超过约 5 分钟的间隔)不会做的一件事是不会取消配置托管应用程序的底层 VM 实例。如果您认为 VM 处于不良状态,请终止 - 间隔 5 分钟,然后重新开始。 (这对池上的集群不起作用,因为池即使在终止后也能维持虚拟机。
【讨论】:
以上是关于当我们重新启动 Azure Databricks 群集时,内部会发生啥?的主要内容,如果未能解决你的问题,请参考以下文章
Azure Databricks:在没有 Internet 访问的情况下在虚拟网络下导入 PyPI 库
如何将大量 DDL 从 Dev 导入/重新创建到 Azure Databricks 的 Prod 实例
如何在 Azure Databricks 中使用 JDBC 从 PostgreSQL 读取表数据?
Azure Databricks 的 Azure DevOps 管道
使用 6.4 版扩展支持(包括 Apache Spark 2.4.5、Scala 2.11)在 azure databricks 上启动集群时出现问题