无法导入 pyspark 统计模块
Posted
技术标签:
【中文标题】无法导入 pyspark 统计模块【英文标题】:unable to import pyspark statistics module 【发布时间】:2017-07-04 09:15:11 【问题描述】:Python 2.7、Apache Spark 2.1.0、Ubuntu 14.04 在 pyspark 外壳中,我收到以下错误:
>>> from pyspark.mllib.stat 导入统计 回溯(最近一次通话最后): 文件“”,第 1 行,在 ImportError:没有名为 stat 的模块解决方案?
类似
>>> 从 pyspark.mllib.linalg 导入 SparseVector 回溯(最近一次通话最后): 文件“”,第 1 行,在 ImportError:没有名为 linalg 的模块我已经安装了 numpy 并且
>>> 系统路径 ['', u'/tmp/spark-2d5ea25c-e2e7-490a-b5be-815e320cdee0/userFiles-2f177853-e261-46f9-97e5-01ac8b7c4987', '/usr/local/lib/python2.7/dist-packages/ setuptools-18.1-py2.7.egg', '/usr/local/lib/python2.7/dist-packages/pyspark-2.1.0+hadoop2.7-py2.7.egg', '/usr/local/ lib/python2.7/dist-packages/py4j-0.10.4-py2.7.egg', '/home/d066537/spark/spark-2.1.0-bin-hadoop2.7/python/lib/py4j-0.10 .4-src.zip', '/home/d066537/spark/spark-2.1.0-bin-hadoop2.7/python', '/home/d066537', '/usr/lib/python2.7', ' /usr/lib/python2.7/plat-x86_64-linux-gnu', '/usr/lib/python2.7/lib-tk', '/usr/lib/python2.7/lib-old', '/ usr/lib/python2.7/lib-dynload','/usr/local/lib/python2.7/dist-packages','/usr/lib/python2.7/dist-packages','/usr/lib /python2.7/dist-packages/PILcompat', '/usr/lib/python2.7/dist-packages/gst-0.10', '/usr/lib/python2.7/dist-packages/gtk-2.0', '/usr/lib/python2.7/dist-packages/ubuntu-sso-client']【问题讨论】:
【参考方案1】:删除 pyspark 安装。
sudo -H pip uninstall pyspark
【讨论】:
【参考方案2】:我也有同样的问题。 Python 文件stat.py
似乎不在 Spark 2.1.x 中,而是在 Spark 2.2.x 中。因此,您似乎需要使用更新后的 pyspark 升级 Spark(但 Zeppelin 0.7.x 似乎不适用于 Spark 2.2.x)。
【讨论】:
以上是关于无法导入 pyspark 统计模块的主要内容,如果未能解决你的问题,请参考以下文章
Pyspark - ImportError:无法从“pyspark”导入名称“SparkContext”
获取:导入 Spark 模块时出错:没有名为“pyspark.streaming.kafka”的模块