将 Databricks 集群与本地计算机 (AWS) 连接

Posted

技术标签:

【中文标题】将 Databricks 集群与本地计算机 (AWS) 连接【英文标题】:Connect Databricks cluster with local machine (AWS) 【发布时间】:2021-12-02 10:14:19 【问题描述】:

我想从本地计算机连接到 Databricks 集群 (AWS),但我想在集群中执行整个代码。使用 Databricks Connect,只有 spark 代码在集群中执行。我正在寻找替代解决方案。 SSH解释器或类似的东西。我使用 PyCharm (IDE)。

【问题讨论】:

【参考方案1】:

我会采用这种方法(但您需要为您的 IDE 编写小脚本):

你承诺在 git 中做一些早午餐(比如登台) 您的 IDE 执行 databricks cli 命令“databricks repos update”,该命令将执行拉取操作 您的 IDE 执行 databricks cli 作业命令以从 repo 运行笔记本

Databricks cli 可以作为 Rest Api、bash/cmd 执行,也可以作为 sdk 导入编程语言

【讨论】:

我想将它用于本地测试我不知道在提交时执行我的代码。 或者我真的听不懂你想说什么。 但是你写到你想直接在databricks上执行它,在repos中有一些开发分支是可能的 我想在我的 IDE 中开发作业,我想在本地执行它们 databricks 是云环境,所以完全在本地是不可能的......

以上是关于将 Databricks 集群与本地计算机 (AWS) 连接的主要内容,如果未能解决你的问题,请参考以下文章

init 脚本在 databricks 笔记本中运行良好,但在附加到集群时失败

如何使用 Databricks 查询外部 Hive 表

如何使用 databricks-connect 在本地执行 Spark 代码?

Databricks - 创建永久用户定义函数 (UDF)

Databricks Connect:无法连接到 azure 上的远程集群,命令:“databricks-connect test”停止

启用进程隔离的集群尚不支持 Databricks Connect