将文件指向 hadoop 集群

Posted

技术标签:

【中文标题】将文件指向 hadoop 集群【英文标题】:Pointing a file to the hadoop cluster 【发布时间】:2015-11-25 04:05:04 【问题描述】:

我有一个文件存储在服务器中。我希望在运行 spark 时将文件指向 Hadoop 集群。我所拥有的是,我可以将 spark 上下文指向 hadoop 集群,但由于它指向集群,因此无法在 Spark 中访问数据。我将数据存储在本地,因此为了访问数据,我必须在本地指向它。但是,这会导致很多内存错误。我希望做的是在集群上指向 Spark,但同时访问我存储在本地的数据。请提供一些方法我可以做到这一点。

【问题讨论】:

【参考方案1】:

Spark(在 Hadoop 上)无法读取本地存储的文件。请记住,spark 是一个运行在多台机器上的分布式系统,因此它不能直接读取其中一个节点(本地主机除外)上的数据。

您应该将文件放在 HDFS 上并让 spark 从那里读取它。

要在本地访问它,您应该使用hadoop fs -get <hdfs filepath>hadoop fs -cat <hdfs filepath> 命令。

【讨论】:

你可以在本地读取文件,但是它需要在每个集群节点上。通常不是很有用。

以上是关于将文件指向 hadoop 集群的主要内容,如果未能解决你的问题,请参考以下文章

Hadoop集群配置

使用 Docker 搭建 Hadoop 集群 和 Spark On Yarn

Hadoop集群以外的机器如何访问Hadoop集群,进行提交文件,下载文件?

Hadoop3.13 配置文件

一起学Hadoop——文件的上传分发与打包

如何将pyspark数据帧写入不同的hadoop集群