从 Pyspark 访问 HDFS 失败

Posted 2023-04-15

技术标签:

【中文标题】从 Pyspark 访问 HDFS 失败【英文标题】：Accessing HDFS from Pyspark fails 【发布时间】：2017-09-21 12:38:06 【问题描述】：

我在 Ubuntu 17.04 上安装了 Hadoop 2.7.3 和 pyspark 2.2.0。

Hadoop 和 Pyspark 似乎都可以自行正常工作。但是，我没有设法从 Pyspark 中的 HDFS 获取文件。当我尝试从 HDFS 获取文件时，出现以下错误：

https://imgur.com/j6Dy2u7

我在另一篇文章中读到需要设置环境变量 HADOOP_CONF_DIR 才能访问 HDFS。我也这样做了（见下一个屏幕截图），但后来我得到另一个错误，Pyspark 不再工作了。

https://imgur.com/AMpJ6TB

如果我删除环境变量，一切照旧。

如何解决在 Pyspark 中从 HDFS 打开文件的问题？我在这方面花了很长时间，非常感谢任何帮助！

【问题讨论】：

【参考方案1】：

虽然这个答案有点晚了，但你应该改用hdfs:///test/PySpark.txt（注意三个/s）。

【讨论】：

以上是关于从 Pyspark 访问 HDFS 失败的主要内容，如果未能解决你的问题，请参考以下文章