从 Pyspark 访问 HDFS 失败

Posted

技术标签:

【中文标题】从 Pyspark 访问 HDFS 失败【英文标题】:Accessing HDFS from Pyspark fails 【发布时间】:2017-09-21 12:38:06 【问题描述】:

我在 Ubuntu 17.04 上安装了 Hadoop 2.7.3 和 pyspark 2.2.0。

Hadoop 和 Pyspark 似乎都可以自行正常工作。但是,我没有设法从 Pyspark 中的 HDFS 获取文件。当我尝试从 HDFS 获取文件时,出现以下错误:

https://imgur.com/j6Dy2u7

我在另一篇文章中读到需要设置环境变量 HADOOP_CONF_DIR 才能访问 HDFS。我也这样做了(见下一个屏幕截图),但后来我得到另一个错误,Pyspark 不再工作了。

https://imgur.com/AMpJ6TB

如果我删除环境变量,一切照旧。

如何解决在 Pyspark 中从 HDFS 打开文件的问题?我在这方面花了很长时间,非常感谢任何帮助!

【问题讨论】:

【参考方案1】:

虽然这个答案有点晚了,但你应该改用hdfs:///test/PySpark.txt(注意三个/s)。

【讨论】:

以上是关于从 Pyspark 访问 HDFS 失败的主要内容,如果未能解决你的问题,请参考以下文章

Pyspark:获取HDFS路径上的文件/目录列表

pyspark 与 MariaDB 的连接失败并出现 ClassNotFoundException

从 ClickHouse 访问 HDFS HA 集群失败,出现错误 HdfsConfigNotFound

从 hdfs 读取文件 - pyspark

如何从 pyspark 访问 org.apache.hadoop.fs.FileUtil?

Pyspark - 将文件从本地(边缘节点)复制到 HDFS 位置时出错