如何修复“ImportError:必须安装 Pandas >= 0.19.2;但是,找不到”?
Posted
技术标签:
【中文标题】如何修复“ImportError:必须安装 Pandas >= 0.19.2;但是,找不到”?【英文标题】:How to fix "ImportError: Pandas >= 0.19.2 must be installed; however, it was not found"? 【发布时间】:2018-12-17 01:00:47 【问题描述】:我使用 Spark 2.3.1 并想使用 toPandas()
(使用 unique()
)。
当我在pyspark
中执行以下代码时:
df.toPandas()['column_01'].unique()
我面临以下异常:
>>> df.toPandas()
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/Users/xxx/spark/python/pyspark/sql/dataframe.py", line 2075, in toPandas
require_minimum_pandas_version()
File "/Users/xxx/spark/python/pyspark/sql/utils.py", line 129, in require_minimum_pandas_version
"it was not found." % minimum_pandas_version)
ImportError: Pandas >= 0.19.2 must be installed; however, it was not found.
如何解决?
【问题讨论】:
【参考方案1】:您需要安装 pandas:pip install pandas
。
此外,要获取唯一值,您无需转换为 pandas 数据框。您可以在 spark 数据框中实现这一点。
df.select('column_01').distinct()
【讨论】:
【参考方案2】:我知道这是一个老问题,但我最近在将 pyspark 作业部署到 Google Dataproc 时遇到了同样的问题。对我有用的解决方案如下:
创建集群时,请指定以下内容:
--metadata 'PIP_PACKAGES=pandas==0.23.0'
【讨论】:
以上是关于如何修复“ImportError:必须安装 Pandas >= 0.19.2;但是,找不到”?的主要内容,如果未能解决你的问题,请参考以下文章