将文件指向 hadoop 集群
Posted
技术标签:
【中文标题】将文件指向 hadoop 集群【英文标题】:Pointing a file to the hadoop cluster 【发布时间】:2015-11-25 04:05:04 【问题描述】:我有一个文件存储在服务器中。我希望在运行 spark 时将文件指向 Hadoop 集群。我所拥有的是,我可以将 spark 上下文指向 hadoop 集群,但由于它指向集群,因此无法在 Spark 中访问数据。我将数据存储在本地,因此为了访问数据,我必须在本地指向它。但是,这会导致很多内存错误。我希望做的是在集群上指向 Spark,但同时访问我存储在本地的数据。请提供一些方法我可以做到这一点。
【问题讨论】:
【参考方案1】:Spark(在 Hadoop 上)无法读取本地存储的文件。请记住,spark 是一个运行在多台机器上的分布式系统,因此它不能直接读取其中一个节点(本地主机除外)上的数据。
您应该将文件放在 HDFS 上并让 spark 从那里读取它。
要在本地访问它,您应该使用hadoop fs -get <hdfs filepath>
或hadoop fs -cat <hdfs filepath>
命令。
【讨论】:
你可以在本地读取文件,但是它需要在每个集群节点上。通常不是很有用。以上是关于将文件指向 hadoop 集群的主要内容,如果未能解决你的问题,请参考以下文章
使用 Docker 搭建 Hadoop 集群 和 Spark On Yarn