如何使用 jupyter notebook 在 pyspark 中的 Hive 上使用 %sql Magic 字符串启用 spark SQL

Posted

技术标签:

【中文标题】如何使用 jupyter notebook 在 pyspark 中的 Hive 上使用 %sql Magic 字符串启用 spark SQL【英文标题】:How to enable the spark SQL with %sql Magic string on Hive in pyspark using jupyter notebook 【发布时间】:2019-07-24 14:01:55 【问题描述】:

如何在 jupyter notebook 上启用%sql Magic string,以及如何通过下面的代码行在单元格上使用 %sql 魔术字符串。

spark.sql('select * from test').show()

【问题讨论】:

【参考方案1】:

试试

%%sparksql
select * from test

在尝试安装之前

pip install sparksql-magic

参考:https://github.com/cryeo/sparksql-magic

【讨论】:

【参考方案2】:

您不需要 %sql 魔术字符串来使用 Spark SQL。您需要首先按照SparkSession API docs 中的说明创建一个 Spark DataFrame,例如使用df = createDataFrame(data)。然后您将创建一个全局视图,调用df.createOrReplaceTempView("test")。那么你上面的查询就可以了。

【讨论】:

如何在 jupyter notebook 中将上述查询与 %sql 魔术字符串一起使用,如何通过 %sql 启用 spark SQL,像在数据块上一样工作【参考方案3】:

试试

%%sql
select * from test

链接 https://github.com/jupyter-incubator/sparkmagic

【讨论】:

sparkmagic 可以安装,但是在 notebook %sql 上找不到列出的魔法字符串,请看上图。

以上是关于如何使用 jupyter notebook 在 pyspark 中的 Hive 上使用 %sql Magic 字符串启用 spark SQL的主要内容,如果未能解决你的问题,请参考以下文章

关于jupyter notebook

访问在 Docker 容器上运行的 Jupyter notebook

在windows下安装Jupyter Notebook的安装和使用

如何在别的电脑打开 jupyter notebook

Jupyter Notebook使用教程

在VS Code中使用Jupyter Notebook