提取 Databricks 集群依赖项并将它们添加到 build.sbt 以在 Azure DevOps 中构建 jar

Posted 2023-03-24

技术标签:

【中文标题】提取 Databricks 集群依赖项并将它们添加到 build.sbt 以在 Azure DevOps 中构建 jar【英文标题】：Extract Databricks Cluster dependencies and add them in build.sbt to build jar in Azure DevOps 【发布时间】：2020-07-19 14:17:26 【问题描述】：

我正在构建一个 DevOps CICD 管道，这需要我： 1. 自动检测并提取 Databricks 集群中的所有依赖项 2. 将它们自动插入到 Azure Repos 中已经存在的 build.sbt 3. 在那里构建管道以构建 jar

我目前在第 1 步和第 2 步中被阻止。我研究了插件。但我不确定这是否是正确的方向。还是我应该研究自动化？如果有人能指出正确的方向，那就太好了。

一切都必须在 Azure 平台上完成。所以，没有 IntelliJ。我猜只有 bash 命令？

【问题讨论】：

您好，第一步和第二步，用命令行工具能在本地成功吗？ @LanceLi-MSFT 抱歉回复晚了。我没有看到你的消息。目标是在平台上做所有事情。因此，例如，如果有人在 Databricks 笔记本中导入 spark 库，我将不得不自动检测它并将其插入到位于 Azure Repos 中的 build.sbt 中，如“libraryDependencies += ..... 。”我实际上对 Scala 并不熟悉。我希望这很清楚。我一直在尝试的方向不正确。我试图提取集群中的库，格式为 jar、egg、whl 等......我只是意识到这不是正确的方法在我看来，你想要的东西不能在 azure devops 管道中完成，除非它可以通过 cmd 或 powershell 在本地命令中完成...... 【参考方案1】：

在搜索了许多解决方案后没有成功。我最终通过编写脚本（在 python 或 bash 上）来做到这一点。目标是将脚本放入 Azure DevOps 管道中，以使一切自动化。

【讨论】：

以上是关于提取 Databricks 集群依赖项并将它们添加到 build.sbt 以在 Azure DevOps 中构建 jar的主要内容，如果未能解决你的问题，请参考以下文章

Databricks（Spark）：.egg依赖项没有自动安装？

Databricks (Spark)：.egg 依赖项未自动安装？

您可以在 Databricks 池节点上预安装库吗？

init 脚本在 databricks 笔记本中运行良好，但在附加到集群时失败

可以使Maven构建包含依赖项中的.class文件[重复]

Azure Databricks：如何在 Databricks 群集中添加 Spark 配置