如何在 spark-2.1.1-bin-hadoop2.7 的 bin 文件夹外运行 spark-jobs

Posted

技术标签:

【中文标题】如何在 spark-2.1.1-bin-hadoop2.7 的 bin 文件夹外运行 spark-jobs【英文标题】:How to run spark-jobs outside the bin folder of spark-2.1.1-bin-hadoop2.7 【发布时间】:2017-05-22 11:38:21 【问题描述】:

我有一个现有的spark-job,这个spark-job的功能是连接kafka-server获取数据,然后将数据存储到cassandra tables,现在这个spark-jobspark-2.1.1-bin-hadoop2.7/bin里面的服务器上运行但是每当我试图从其他位置运行这个spark-job 时,它没有运行,这个spark-job 包含一些JavaRDD 相关的代码。 有没有机会,我也可以通过在 pom 或其他东西中添加任何依赖项来从外部运行这个 spark-job

【问题讨论】:

你的工作进展如何?你可以在任何地方运行 spark-submit。 是的,我正在使用 spark-submit ......我不太了解这个......你能告诉我清楚一点吗,实际上我的前辈正在运行这个,我没有那个这方面的知识很多...我可以直接将 spar-submit 和我的 jar 复制到另一个文件夹(例如:- 测试)并直接在那里运行吗? 你能解释一下“当我试图从其他位置运行这个 spark-job 时,它没有运行”?有什么错误? 我认为您指定的是相对路径,如果您使用绝对路径,它也可以在其他目录中使用。 你在哪里独立运行你的 spark 集群,yarn,mesos? 【参考方案1】:

每当我尝试从其他位置运行此 spark-job 时,它都不会运行

spark-job 是 Spark 应用程序的自定义启动器脚本,可能带有一些额外的命令行选项和包。打开它,查看内容并解决问题。

如果很难弄清楚 spark-job 做了什么,并且附近没有人可以帮助您,那么可能是时候把它扔掉并用好的 ol' spark-submit 代替。

你为什么不首先使用它?!

在Submitting Applications 中阅读spark-submit

【讨论】:

以上是关于如何在 spark-2.1.1-bin-hadoop2.7 的 bin 文件夹外运行 spark-jobs的主要内容,如果未能解决你的问题,请参考以下文章

如何在表单提交后保留文本(如何在提交后不删除自身?)

如何在异步任务中调用意图?或者如何在 onPostExecute 中开始新的活动?

在 Avkit 中如何使用这三行代码,以及如何将音乐静音”

如何在 JDBC 中启动事务?

如何在 Fragment 中调用 OnActivityResult 以及它是如何工作的?

如何使用 Firebase 在 Web 上托管 Flutter?它的效果如何?