如何在没有 Spark-Shell 的情况下从 AWS 控制台运行 Spark jar 文件

Posted

技术标签:

【中文标题】如何在没有 Spark-Shell 的情况下从 AWS 控制台运行 Spark jar 文件【英文标题】:How to run a Spark jar file from AWS Console without Spark-Shell 【发布时间】:2015-04-14 20:17:24 【问题描述】:

我正在尝试在 AWS EMR 控制台(亚马逊网络服务)上运行 Spark 应用程序。我在 jar 中编译的 Scala 脚本将 SparkConf 设置作为参数或字符串:

val sparkConf = new SparkConf()
  .setAppName("WikipediaGraphXPageRank")
  .setMaster(args(1))
  .set("spark.executor.memory","1g")
  .registerKryoClasses(Array(classOf[PRVertex], classOf[PRMessage]))

但是,我不知道如何在上传并设置集群时将 Master-URL 参数和其他参数传递给 jar。需要明确的是,我知道如果我正在运行 Spark-Shell,我会以另一种方式执行此操作,但我是 Windows 用户,并且按照我目前的设置和工作,这将非常有用在“步骤”中通过某种方式将主 URL 传递给 EMR 集群。

我不想使用 Spark-Shell,我的截止日期很近,并且所有东西都以这种方式进行设置,并且感觉就像将主 URL 作为参数传递的这个小问题应该是可能的,考虑到 AWS拥有在 EMR 上运行独立 Spark 应用程序的指南。

我们将不胜感激!

【问题讨论】:

你可以使用 spark-submit 吗? 您的 aws 实例的类型是什么? @Metropolis - 已经尝试过 Spark-submit! @Elisiah - 这是我通过 SHH 控制的 EMR 实例。 @user3297367 你有解决办法吗? 【参考方案1】:

以下是通过 EMR 步骤使用 spark-submit 的说明:https://github.com/awslabs/emr-bootstrap-actions/blob/master/spark/examples/spark-submit-via-step.md

【讨论】:

以上是关于如何在没有 Spark-Shell 的情况下从 AWS 控制台运行 Spark jar 文件的主要内容,如果未能解决你的问题,请参考以下文章

如何在没有 JQUERY 的情况下从浏览器扩展向 localhost 发出 POST 请求?

如何在没有交叉产品的情况下从 BigQuery 中的两列中取消嵌套两个列表,作为单独的行

如何在没有开发人员帐户的情况下从 .app 文件构建 .ipa 文件?

如何在没有 \n 的情况下从 txt 中获取特定行(Python)

如何在没有 OutOfMemory 错误的情况下从 FileInputStream 获取字节数组

如何在没有“可选”的情况下从 plist 打印字符串?