无法导入 pyspark 统计模块

Posted

技术标签:

【中文标题】无法导入 pyspark 统计模块【英文标题】:unable to import pyspark statistics module 【发布时间】:2017-07-04 09:15:11 【问题描述】:

Python 2.7、Apache Spark 2.1.0、Ubuntu 14.04 在 pyspark 外壳中,我收到以下错误:

>>> from pyspark.mllib.stat 导入统计 回溯(最近一次通话最后): 文件“”,第 1 行,在 ImportError:没有名为 stat 的模块

解决方案?

类似

>>> 从 pyspark.mllib.linalg 导入 SparseVector 回溯(最近一次通话最后): 文件“”,第 1 行,在 ImportError:没有名为 linalg 的模块

我已经安装了 numpy 并且

>>> 系统路径 ['', u'/tmp/spark-2d5ea25c-e2e7-490a-b5be-815e320cdee0/userFiles-2f177853-e261-46f9-97e5-01ac8b7c4987', '/usr/local/lib/python2.7/dist-packages/ setuptools-18.1-py2.7.egg', '/usr/local/lib/python2.7/dist-packages/pyspark-2.1.0+hadoop2.7-py2.7.egg', '/usr/local/ lib/python2.7/dist-packages/py4j-0.10.4-py2.7.egg', '/home/d066537/spark/spark-2.1.0-bin-hadoop2.7/python/lib/py4j-0.10 .4-src.zip', '/home/d066537/spark/spark-2.1.0-bin-hadoop2.7/python', '/home/d066537', '/usr/lib/python2.7', ' /usr/lib/python2.7/plat-x86_64-linux-gnu', '/usr/lib/python2.7/lib-tk', '/usr/lib/python2.7/lib-old', '/ usr/lib/python2.7/lib-dynload','/usr/local/lib/python2.7/dist-packages','/usr/lib/python2.7/dist-packages','/usr/lib /python2.7/dist-packages/PILcompat', '/usr/lib/python2.7/dist-packages/gst-0.10', '/usr/lib/python2.7/dist-packages/gtk-2.0', '/usr/lib/python2.7/dist-packages/ubuntu-sso-client']

【问题讨论】:

【参考方案1】:

删除 pyspark 安装。

sudo -H pip uninstall pyspark

【讨论】:

【参考方案2】:

我也有同样的问题。 Python 文件stat.py 似乎不在 Spark 2.1.x 中,而是在 Spark 2.2.x 中。因此,您似乎需要使用更新后的 pyspark 升级 Spark(但 Zeppelin 0.7.x 似乎不适用于 Spark 2.2.x)。

【讨论】:

以上是关于无法导入 pyspark 统计模块的主要内容,如果未能解决你的问题,请参考以下文章

Spark 似乎已安装但无法导入 pyspark 模块

pyspark 导入用户定义的模块或 .py 文件

Pyspark - ImportError:无法从“pyspark”导入名称“SparkContext”

获取:导入 Spark 模块时出错:没有名为“pyspark.streaming.kafka”的模块

导入 Pyspark Delta Lake 模块时未找到模块错误

Pyspark 导入列模块以使用 gt 或 geq