如何使用 jupyter notebook 在 pyspark 中的 Hive 上使用 %sql Magic 字符串启用 spark SQL
Posted
技术标签:
【中文标题】如何使用 jupyter notebook 在 pyspark 中的 Hive 上使用 %sql Magic 字符串启用 spark SQL【英文标题】:How to enable the spark SQL with %sql Magic string on Hive in pyspark using jupyter notebook 【发布时间】:2019-07-24 14:01:55 【问题描述】:如何在 jupyter notebook 上启用%sql Magic string
,以及如何通过下面的代码行在单元格上使用 %sql 魔术字符串。
spark.sql('select * from test').show()
【问题讨论】:
【参考方案1】:试试
%%sparksql
select * from test
在尝试安装之前
pip install sparksql-magic
参考:https://github.com/cryeo/sparksql-magic
【讨论】:
【参考方案2】:您不需要 %sql 魔术字符串来使用 Spark SQL。您需要首先按照SparkSession API docs 中的说明创建一个 Spark DataFrame,例如使用df = createDataFrame(data)
。然后您将创建一个全局视图,调用df.createOrReplaceTempView("test")
。那么你上面的查询就可以了。
【讨论】:
如何在 jupyter notebook 中将上述查询与 %sql 魔术字符串一起使用,如何通过 %sql 启用 spark SQL,像在数据块上一样工作【参考方案3】:试试
%%sql
select * from test
链接 https://github.com/jupyter-incubator/sparkmagic
【讨论】:
sparkmagic 可以安装,但是在 notebook %sql 上找不到列出的魔法字符串,请看上图。以上是关于如何使用 jupyter notebook 在 pyspark 中的 Hive 上使用 %sql Magic 字符串启用 spark SQL的主要内容,如果未能解决你的问题,请参考以下文章
访问在 Docker 容器上运行的 Jupyter notebook