from pyspark.sql.snappy import SnappyContext - ImportError: No module named snappy

Posted

技术标签:

【中文标题】from pyspark.sql.snappy import SnappyContext - ImportError: No module named snappy【英文标题】: 【发布时间】:2017-10-31 10:09:20 【问题描述】:

即使在我尝试从以下代码导入 pyspark.sql.snappy 时重新安装 pyspark 和 snappydata 之后:

from pyspark.sql.snappy import SnappyContext
from pyspark.storagelevel import StorageLevel
SparkContext._ensure_initialized()

spark = SparkSession.builder.appName("test")  \
                        .master("local[*]") \
                        .config("spark.snappydata.connection", "localhost:1527") \
                        .getOrCreate() 

snappy = SnappySession(spark)
snappy.sql("SELECT col1, min(col2) from TABLE1")

我得到错误:

Traceback (most recent call last):
  File "testpy.py", line 4, in <module>
    from pyspark.sql.snappy import SnappyContext
ImportError: No module named snappy

请帮忙!

【问题讨论】:

您是否按照here 的描述添加了 snappydata 作为依赖项? (假设火花版本> = 2.1.1)。另外,你是如何运行 pyspark 脚本的?本地使用spark-submit? 我是新手。我只是在 shell 中运行 python 脚本。 【参考方案1】:

这是上次发布版本中的一个已知问题。这已在最新的 master 中修复。 $SNAPPY_HOME/bin/pyspark 是指 $SNAPPY_HOME/pyspark 文件夹中的 python 脚本。不幸的是,一些构建更改停止复制文件夹中的 SnappyData python 脚本。您可以构建当前的 master 以使用 pyspark。

【讨论】:

查看这些文档以从源代码构建 snappydatainc.github.io/snappydata/install/building_from_source

以上是关于from pyspark.sql.snappy import SnappyContext - ImportError: No module named snappy的主要内容,如果未能解决你的问题,请参考以下文章

I.MX6 boot from Micro SD

How do I UPDATE from a SELECT in SQL Server?

数据挖掘——Data competition: From 0 to 1: Part I

26. Remove Duplicates from Sorted Array

I want to try to improve myself from today

80. Remove Duplicates from Sorted Array II