无法在 pyspark 中导入 pyarrow
Posted
技术标签:
【中文标题】无法在 pyspark 中导入 pyarrow【英文标题】:Cannot import pyarrow in pyspark 【发布时间】:2020-06-07 21:17:12 【问题描述】:我正在尝试在 pyspark 中使用 pyarrow。但是,当我尝试执行时
import pyarrow
我收到以下错误
In [1]: import pyarrow
---------------------------------------------------------------------------
ImportError Traceback (most recent call last)
<ipython-input-1-f1048abcb32d> in <module>
----> 1 import pyarrow
~/opt/anaconda3/lib/python3.7/site-packages/pyarrow/__init__.py in <module>
47 import pyarrow.compat as compat
48
---> 49 from pyarrow.lib import cpu_count, set_cpu_count
50 from pyarrow.lib import (null, bool_,
51 int8, int16, int32, int64,
ImportError: dlopen(/Users/user/opt/anaconda3/lib/python3.7/site-packages/pyarrow/lib.cpython-37m-darwin.so, 2): Library not loaded: @rpath/libboost_filesystem.dylib
Referenced from: /Users/user/opt/anaconda3/lib/libarrow.15.1.0.dylib
Reason: image not found
我尝试在 conda 环境中安装 pyarrow,降级到 python 3.6 但没有成功。
有人有解决问题的建议吗?
【问题讨论】:
【参考方案1】:看起来 PyArrow 没有正确安装。所以请尝试清理旧包,然后使用以下命令再次安装 pyarrow,
conda install -c conda-forge pyarrow
【讨论】:
谢谢,看来它有效。我还使用 brew install apache-arrow 和 brew install apache-arrow-glib 安装了 apache-arrow【参考方案2】:接受的答案对我不起作用,因为我在 MacOs 中,我一直在研究,帮助我的答案是 this one。对于那些在 MacOS 中遇到同样问题的人。
brew update && brew upgrade
brew switch openssl 1.0.2s
为我工作 Catalina 10.15.4
【讨论】:
以上是关于无法在 pyspark 中导入 pyarrow的主要内容,如果未能解决你的问题,请参考以下文章
如何在 Databricks pyspark 中导入 Excel 文件
如何在 Zeppelin notebook 和 pyspark 中导入 Delta Lake 模块?
如何在 PySpark 中从表中导入数据时排除 Header