Azure Databricks:如何在 Databricks 群集中添加 Spark 配置

Posted

技术标签:

【中文标题】Azure Databricks:如何在 Databricks 群集中添加 Spark 配置【英文标题】:Azure Databricks: How to add Spark configuration in Databricks cluster 【发布时间】:2020-02-29 11:33:02 【问题描述】:

我正在使用 Spark Databricks 集群并希望添加自定义的 Spark 配置。 有一个关于此的 Databricks 文档,但我不知道应该如何以及应该进行哪些更改。有人可以分享配置 Databricks 集群的示例吗。 有什么方法可以查看 Databricks 集群中 Spark 的默认配置。

【问题讨论】:

【参考方案1】:

要微调 Spark 作业,您可以在集群配置中提供自定义 Spark configuration 属性。

    在集群配置页面上,点击高级选项开关。 单击 Spark 选项卡。

[OR]

当您使用集群 API 配置集群时,请在创建集群请求或编辑集群请求的 spark_conf 字段中设置 Spark 属性。

要为所有集群设置 Spark 属性,请创建一个全局初始化脚本:

%scala
dbutils.fs.put("dbfs:/databricks/init/set_spark_params.sh","""
  |#!/bin/bash
  |
  |cat << 'EOF' > /databricks/driver/conf/00-custom-spark-driver-defaults.conf
  |[driver] 
  |  "spark.sql.sources.partitionOverwriteMode" = "DYNAMIC"
  |
  |EOF
  """.stripMargin, true)

参考:Databricks - Spark Configuration

示例:你可以选择任何你想测试的spark配置,这里我要指定“spark.executor.memory 4g”,自定义配置看起来像这个。

集群创建完成后,可以查看自定义配置的结果。

希望这会有所帮助。

【讨论】:

这就是我在“有一个 Databricks 文档”的问题中提到的。但我想知道我们添加了什么以及如何添加 spark 配置。 嘿@Stark,您可以查看答案中提供的示例。如果需要任何帮助,请告诉我。 我正面临 OOM 问题,所以我认为我应该对集群配置进行一些更改。在运行 10 次或更多次后执行 Spark 作业后出现 OOM。我正在对相同的数据执行管道。但有时它会失败。 ***.com/questions/58640218/… 知道我应该怎么做才能解决这个问题。 嗨@Stark 你试过上面的例子“spark.executor.memory 4g”并执行火花作业。

以上是关于Azure Databricks:如何在 Databricks 群集中添加 Spark 配置的主要内容,如果未能解决你的问题,请参考以下文章

Azure Data PlatformETL工具(21)——Azure Databricks使用——访问Azure Blob

Azure Data PlatformETL工具(21)——Azure Databricks使用——访问Azure Blob

Azure Data PlatformETL工具(22)——Azure Databricks与ADF整合

Azure Data PlatformETL工具(22)——Azure Databricks与ADF整合

无法从 azure databricks 在 azure data Lake 中保存文件

Azure Data PlatformETL工具(19)——Azure Databricks