如何使用 databricks-connect 在本地执行 Spark 代码?

Posted

技术标签:

【中文标题】如何使用 databricks-connect 在本地执行 Spark 代码?【英文标题】:How to execute Spark code locally with databricks-connect? 【发布时间】:2019-12-02 19:16:21 【问题描述】:

有没有办法在本地使用databricks-connect 执行 Spark 代码?

原因是我想在我的 CI/CD 管道中执行一些测试,而不需要启动和运行集群。

【问题讨论】:

我在单元测试模拟 spark_session 时遇到了类似的问题。你是怎么解决的? 【参考方案1】:

不,databricks-connect 需要一个正在运行的集群。 如果您不使用任何 databricks 特定代码(如 dbutils),您可以在本地运行 spark 并针对它执行 - 假设您仍然可以访问所需的数据源。

【讨论】:

令人遗憾的消息,因为我需要等待开源 Delta Lake 支持 Databricks 中可用的 DDL/DML。谢谢。

以上是关于如何使用 databricks-connect 在本地执行 Spark 代码?的主要内容,如果未能解决你的问题,请参考以下文章

使用 databricks-connect 调试运行另一个笔记本的笔记本

Databricks-Connect 还返回找不到多个 python 文件作业的模块

databricks-connect 无法连接到 Databricks 集群运行时 8.4

Databricks Connect:无法连接到 azure 上的远程集群,命令:“databricks-connect test”停止

如何从 PyCharm 连接 Databricks 社区版集群

Databricks 连接 java.lang.ClassNotFoundException