如何修复“ImportError:必须安装 Pandas >= 0.19.2;但是,找不到”?

Posted

技术标签:

【中文标题】如何修复“ImportError:必须安装 Pandas >= 0.19.2;但是,找不到”?【英文标题】:How to fix "ImportError: Pandas >= 0.19.2 must be installed; however, it was not found"? 【发布时间】:2018-12-17 01:00:47 【问题描述】:

我使用 Spark 2.3.1 并想使用 toPandas()(使用 unique())。

当我在pyspark中执行以下代码时:

df.toPandas()['column_01'].unique()

我面临以下异常:

>>> df.toPandas()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/Users/xxx/spark/python/pyspark/sql/dataframe.py", line 2075, in toPandas
    require_minimum_pandas_version()
  File "/Users/xxx/spark/python/pyspark/sql/utils.py", line 129, in require_minimum_pandas_version
    "it was not found." % minimum_pandas_version)
ImportError: Pandas >= 0.19.2 must be installed; however, it was not found.

如何解决?

【问题讨论】:

【参考方案1】:

您需要安装 pandas:pip install pandas。 此外,要获取唯一值,您无需转换为 pandas 数据框。您可以在 spark 数据框中实现这一点。

df.select('column_01').distinct()

【讨论】:

【参考方案2】:

我知道这是一个老问题,但我最近在将 pyspark 作业部署到 Google Dataproc 时遇到了同样的问题。对我有用的解决方案如下:

创建集群时,请指定以下内容:

--metadata 'PIP_PACKAGES=pandas==0.23.0'

【讨论】:

以上是关于如何修复“ImportError:必须安装 Pandas >= 0.19.2;但是,找不到”?的主要内容,如果未能解决你的问题,请参考以下文章

如何修复漏洞

如何修复WMI

PHP网站漏洞怎么修复 如何修补网站程序代码漏洞

如何修复这些漏洞? (npm audit fix 无法修复这些漏洞)

如何修复AppScan漏洞

如何在DOS环境下修复系统