用于开发的 Databricks 本地实例

Posted

技术标签:

【中文标题】用于开发的 Databricks 本地实例【英文标题】:Local instance of Databricks for development 【发布时间】:2020-12-29 13:54:10 【问题描述】:

我目前正在一个小团队工作,该团队正在开发基于 Databricks 的解决方案。目前,我们已经足够小,可以处理 Databricks 的云实例。随着团队的壮大,这将不再实际。

是否有可安装用于开发目的的“本地”Databricks 安装(它不需要是可扩展的版本,但需要基本上功能齐全)?换句话说,每个开发人员都可以在本地机器上创建自己的 Databricks 开发实例吗?

还有其他方法可以为每个开发人员提供专用的 Databricks 环境吗?

【问题讨论】:

【参考方案1】:

很遗憾,数据块的本地实例不可用。

使用 Databricks 的唯一方法是仅通过 cloud

Databricks 可从MicrosoftAWS 获得。

如果您想测试数据块,可以使用免费的Databricks community Edition。 (如果您免费获得某些东西,那么肯定会有一些限制)。

什么是 Databricks 社区版?

Databricks 社区版是我们基于云的大数据平台的免费版本。它的用户可以访问微集群以及集群管理器和笔记本环境。所有用户都可以共享他们的笔记本并使用 Databricks 免费托管它们。我们希望这将使每个人都能够创建新的、令人兴奋的内容,从而使整个 Apache Spark™ 社区受益。

社区版的限制:

仅限单个集群,限制为 15 GB,只有驱动节点,没有工作节点 节点。 无需协作的基本笔记本 最多 3 个用户 分享您的工作的公共环境

更多详情,Try Databricks 和 Databricks community Edition - FAQ

【讨论】:

谢谢!社区版是一个很好的解决方案,但“免费”部分将在 14 天后到期。有什么我可以长期做的吗?

以上是关于用于开发的 Databricks 本地实例的主要内容,如果未能解决你的问题,请参考以下文章

05 DataBricks遍历S3容器

检查 Databricks 笔记本中是不是存在 S3 目录

将 Databricks 集群与本地计算机 (AWS) 连接

Databricks:Data Lake Storage Gen 2 的挂载和直接访问之间的区别

如何使用 databricks-connect 在本地执行 Spark 代码?

本地上传策略