将文件指向 hadoop 集群

Posted 2023-04-18

技术标签:

【中文标题】将文件指向 hadoop 集群【英文标题】：Pointing a file to the hadoop cluster 【发布时间】：2015-11-25 04:05:04 【问题描述】：

我有一个文件存储在服务器中。我希望在运行 spark 时将文件指向 Hadoop 集群。我所拥有的是，我可以将 spark 上下文指向 hadoop 集群，但由于它指向集群，因此无法在 Spark 中访问数据。我将数据存储在本地，因此为了访问数据，我必须在本地指向它。但是，这会导致很多内存错误。我希望做的是在集群上指向 Spark，但同时访问我存储在本地的数据。请提供一些方法我可以做到这一点。

【问题讨论】：

【参考方案1】：

Spark（在 Hadoop 上）无法读取本地存储的文件。请记住，spark 是一个运行在多台机器上的分布式系统，因此它不能直接读取其中一个节点（本地主机除外）上的数据。

您应该将文件放在 HDFS 上并让 spark 从那里读取它。

要在本地访问它，您应该使用hadoop fs -get <hdfs filepath> 或hadoop fs -cat <hdfs filepath> 命令。

【讨论】：

你可以在本地读取文件，但是它需要在每个集群节点上。通常不是很有用。

以上是关于将文件指向 hadoop 集群的主要内容，如果未能解决你的问题，请参考以下文章

Hadoop集群配置

使用 Docker 搭建 Hadoop 集群和 Spark On Yarn

Hadoop集群以外的机器如何访问Hadoop集群，进行提交文件，下载文件？

Hadoop3.13 配置文件

一起学Hadoop——文件的上传分发与打包

如何将pyspark数据帧写入不同的hadoop集群