提取 Databricks 集群依赖项并将它们添加到 build.sbt 以在 Azure DevOps 中构建 jar

Posted

技术标签:

【中文标题】提取 Databricks 集群依赖项并将它们添加到 build.sbt 以在 Azure DevOps 中构建 jar【英文标题】:Extract Databricks Cluster dependencies and add them in build.sbt to build jar in Azure DevOps 【发布时间】:2020-07-19 14:17:26 【问题描述】:

我正在构建一个 DevOps CICD 管道,这需要我: 1. 自动检测并提取 Databricks 集群中的所有依赖项 2. 将它们自动插入到 Azure Repos 中已经存在的 build.sbt 3. 在那里构建管道以构建 jar

我目前在第 1 步和第 2 步中被阻止。我研究了插件。但我不确定这是否是正确的方向。还是我应该研究自动化?如果有人能指出正确的方向,那就太好了。

一切都必须在 Azure 平台上完成。所以,没有 IntelliJ。我猜只有 bash 命令?

【问题讨论】:

您好,第一步和第二步,用命令行工具能在本地成功吗? @LanceLi-MSFT 抱歉回复晚了。我没有看到你的消息。目标是在平台上做所有事情。因此,例如,如果有人在 Databricks 笔记本中导入 spark 库,我将不得不自动检测它并将其插入到位于 Azure Repos 中的 build.sbt 中,如“libraryDependencies += ..... 。”我实际上对 Scala 并不熟悉。我希望这很清楚。我一直在尝试的方向不正确。我试图提取集群中的库,格式为 jar、egg、whl 等......我只是意识到这不是正确的方法 在我看来,你想要的东西不能在 azure devops 管道中完成,除非它可以通过 cmd 或 powershell 在本地命令中完成...... 【参考方案1】:

在搜索了许多解决方案后没有成功。我最终通过编写脚本(在 python 或 bash 上)来做到这一点。目标是将脚本放入 Azure DevOps 管道中,以使一切自动化。

【讨论】:

以上是关于提取 Databricks 集群依赖项并将它们添加到 build.sbt 以在 Azure DevOps 中构建 jar的主要内容,如果未能解决你的问题,请参考以下文章

Databricks(Spark):.egg依赖项没有自动安装?

Databricks (Spark):.egg 依赖项未自动安装?

您可以在 Databricks 池节点上预安装库吗?

init 脚本在 databricks 笔记本中运行良好,但在附加到集群时失败

可以使Maven构建包含依赖项中的.class文件[重复]

Azure Databricks:如何在 Databricks 群集中添加 Spark 配置