如何在现有的 Hadoop 2.x 中使用 spark

Posted 2023-04-18

技术标签:

【中文标题】如何在现有的 Hadoop 2.x 中使用 spark【英文标题】：How to use spark with existing Hadoop 2.x 【发布时间】：2015-06-25 10:07:38 【问题描述】：

我们已经在服务器上安装了 Hadoop 2.5。是否可以使用该 Hadoop 来部署 Spark 程序？我希望 Spark 使用现有的 Yarn 来安排任务并能够读取和写入现有的 HDFS。我怎样才能做到这一点？

【问题讨论】：

【参考方案1】：

您可以尝试使用可用的 Apache Spark 预构建下载 https://spark.apache.org/downloads.html

如果这不起作用，那么您需要通过添加您的 hadoop jar 来构建火花 https://spark.apache.org/docs/latest/building-spark.html 很简单

然后，您的 Spark 可以通过在 spark-default 配置中添加您的配置来直接访问您的 HDFS。检查 Spark 中所有可用的配置

https://spark.apache.org/docs/latest/configuration.html

您的 Spark 可以在 YARN 和本地模型中运行 -https://spark.apache.org/docs/latest/running-on-yarn.html

您无需对现有的 hadoop 设置进行任何新的更改即可使火花工作，你只需要在你的火花配置一切 .

【讨论】：

这个答案的一个小附录：您可以将 SPARK 运行为：1.独立 2.在 mesos 集群上，3.在 hadoop 集群上 4.（我忘了:)）

以上是关于如何在现有的 Hadoop 2.x 中使用 spark的主要内容，如果未能解决你的问题，请参考以下文章