hdfs:在 sparkR shell 中读取 parquetfile 时没有此类文件或目录错误

Posted

技术标签:

【中文标题】hdfs:在 sparkR shell 中读取 parquetfile 时没有此类文件或目录错误【英文标题】:hdfs: no such file or directory error when reading parquetfile in sparkR shell 【发布时间】:2015-07-20 07:58:59 【问题描述】:

我想从 hdfs 系统读取 sparkR shell 中的 parquetFile。所以我这样做了:

./sparkR --master yarn-client

 sqlContext <- sparkRSQL.init(sc)
 path<-"hdfs://year=2015/month=1/day=9"
 AppDF <- parquetFile(sqlContext, path)

错误:No such file or directory

但是这个文件确实存在于hdfs系统中。当我将此代码包装在像 dataframe.R 这样的 R 文件中并运行 ./spark-submit --master yarn ~/dataframe.R 1000 时。它运作良好。所以我认为问题是通过 sparkR shell 在 yarn-client 上运行的。谁能帮忙解决这个问题?

我正在使用 spark-1.4.0-bin-hadoop2.6

【问题讨论】:

你能描述一下 spark/conf 文件的细节吗? conf/core-site.xml..的内容是什么? @ruby,谢谢回复。我再做一次。虽然有这个错误信息,但它确实成功读取了文件。我不知道为什么。但它有效 【参考方案1】:

我不确定这是否会有所帮助。您可能需要添加完整路径,包括 defaultFS 的主机名和端口,例如

path<-"hdfs://localhost:9000/year=2015/month=1/day=9"

【讨论】:

我试过这个方法。但警告仍然存在。正如我在 cmets 中提到的,文件确实被读入

以上是关于hdfs:在 sparkR shell 中读取 parquetfile 时没有此类文件或目录错误的主要内容,如果未能解决你的问题,请参考以下文章

sparkR读取csv文件

SparkR 读取数据& Spark运行的配置

使用 SparkR 分组百分位数

sparkR原理

火花需要很长时间才能在 HDFS 上读取压缩的 json

HDFS文件