从 Pyspark 访问 HDFS 失败
Posted
技术标签:
【中文标题】从 Pyspark 访问 HDFS 失败【英文标题】:Accessing HDFS from Pyspark fails 【发布时间】:2017-09-21 12:38:06 【问题描述】:我在 Ubuntu 17.04 上安装了 Hadoop 2.7.3 和 pyspark 2.2.0。
Hadoop 和 Pyspark 似乎都可以自行正常工作。但是,我没有设法从 Pyspark 中的 HDFS 获取文件。当我尝试从 HDFS 获取文件时,出现以下错误:
https://imgur.com/j6Dy2u7
我在另一篇文章中读到需要设置环境变量 HADOOP_CONF_DIR 才能访问 HDFS。我也这样做了(见下一个屏幕截图),但后来我得到另一个错误,Pyspark 不再工作了。
https://imgur.com/AMpJ6TB
如果我删除环境变量,一切照旧。
如何解决在 Pyspark 中从 HDFS 打开文件的问题?我在这方面花了很长时间,非常感谢任何帮助!
【问题讨论】:
【参考方案1】:虽然这个答案有点晚了,但你应该改用hdfs:///test/PySpark.txt
(注意三个/
s)。
【讨论】:
以上是关于从 Pyspark 访问 HDFS 失败的主要内容,如果未能解决你的问题,请参考以下文章
pyspark 与 MariaDB 的连接失败并出现 ClassNotFoundException
从 ClickHouse 访问 HDFS HA 集群失败,出现错误 HdfsConfigNotFound