如何在 Zeppelin notebook 和 pyspark 中导入 Delta Lake 模块?

Posted

技术标签:

【中文标题】如何在 Zeppelin notebook 和 pyspark 中导入 Delta Lake 模块?【英文标题】:How to import Delta Lake module in Zeppelin notebook and pyspark? 【发布时间】:2020-03-28 22:27:22 【问题描述】:

我正在尝试在带有 pyspark 的 Zeppelin 笔记本中使用 Delta Lake,但它似乎无法成功导入模块。例如

%pyspark
from delta.tables import *

它失败并出现以下错误:

ModuleNotFoundError: 没有名为“delta”的模块

但是,使用delta 格式保存/读取数据帧没有问题。使用scala spark%spark可以成功加载模块

有没有办法在 Zeppelin 和 pyspark 中使用 Delta Lake?

【问题讨论】:

【参考方案1】:

终于设法将它加载到 zeppelin pyspark 上。必须明确包含 jar 文件

%pyspark
sc.addPyFile("**LOCATION_OF_DELTA_LAKE_JAR_FILE**")
from delta.tables import *

【讨论】:

以上是关于如何在 Zeppelin notebook 和 pyspark 中导入 Delta Lake 模块?的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 Scala 2.12 Zeppelin Notebook

如何在我的应用程序中显示 jupyter notebook 或 apache zeppelin?

HDP 2.5:Zeppelin 不会在启用 Kerberos 的集群中运行 Notebook

Zeppelin的入门使用系列之创建新的Notebook

pyspark 中的 K-means 在 jupyter notebook 中无限运行,在 zeppelin notebook 中运行良好

python 将Zeppelin Notebook转换为Python代码