如何在现有的 Hadoop 2.x 中使用 spark

Posted

技术标签:

【中文标题】如何在现有的 Hadoop 2.x 中使用 spark【英文标题】:How to use spark with existing Hadoop 2.x 【发布时间】:2015-06-25 10:07:38 【问题描述】:

我们已经在服务器上安装了 Hadoop 2.5。是否可以使用该 Hadoop 来部署 Spark 程序?我希望 Spark 使用现有的 Yarn 来安排任务并能够读取和写入现有的 HDFS。我怎样才能做到这一点?

【问题讨论】:

【参考方案1】:

您可以尝试使用可用的 Apache Spark 预构建下载 https://spark.apache.org/downloads.html

如果这不起作用,那么您需要通过添加您的 hadoop jar 来构建火花 https://spark.apache.org/docs/latest/building-spark.html 很简单

然后,您的 Spark 可以通过在 spark-default 配置中添加您的配置来直接访问您的 HDFS。 检查 Spark 中所有可用的配置

https://spark.apache.org/docs/latest/configuration.html

您的 Spark 可以在 YARN 和本地模型中运行 -https://spark.apache.org/docs/latest/running-on-yarn.html

您无需对现有的 hadoop 设置进行任何新的更改即可 使火花工作,你只需要在你的火花配置一切 .

【讨论】:

这个答案的一个小附录:您可以将 SPARK 运行为:1.独立 2.在 mesos 集群上,3.在 hadoop 集群上 4.(我忘了:))

以上是关于如何在现有的 Hadoop 2.x 中使用 spark的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 Pandas 在现有的 excel 文件中保存新工作表?

如何在现有的 Web 应用程序中使用 apache spark

如何在python中使用pandas在现有的excel工作表中追加列

如何在现有的基于 Storyboard 的项目中设置 @EnvironmentObject?

如何在现有的 QSettings 文件中添加组

如何在现有的 Windows 应用程序中获得 ATL 支持