如何在 spark-2.1.1-bin-hadoop2.7 的 bin 文件夹外运行 spark-jobs
Posted
技术标签:
【中文标题】如何在 spark-2.1.1-bin-hadoop2.7 的 bin 文件夹外运行 spark-jobs【英文标题】:How to run spark-jobs outside the bin folder of spark-2.1.1-bin-hadoop2.7 【发布时间】:2017-05-22 11:38:21 【问题描述】:我有一个现有的spark-job
,这个spark-job
的功能是连接kafka-server
获取数据,然后将数据存储到cassandra tables
,现在这个spark-job
在spark-2.1.1-bin-hadoop2.7/bin
里面的服务器上运行但是每当我试图从其他位置运行这个spark-job
时,它没有运行,这个spark-job
包含一些JavaRDD 相关的代码。
有没有机会,我也可以通过在 pom 或其他东西中添加任何依赖项来从外部运行这个 spark-job
?
【问题讨论】:
你的工作进展如何?你可以在任何地方运行 spark-submit。 是的,我正在使用 spark-submit ......我不太了解这个......你能告诉我清楚一点吗,实际上我的前辈正在运行这个,我没有那个这方面的知识很多...我可以直接将 spar-submit 和我的 jar 复制到另一个文件夹(例如:- 测试)并直接在那里运行吗? 你能解释一下“当我试图从其他位置运行这个 spark-job 时,它没有运行”?有什么错误? 我认为您指定的是相对路径,如果您使用绝对路径,它也可以在其他目录中使用。 你在哪里独立运行你的 spark 集群,yarn,mesos? 【参考方案1】:每当我尝试从其他位置运行此
spark-job
时,它都不会运行
spark-job
是 Spark 应用程序的自定义启动器脚本,可能带有一些额外的命令行选项和包。打开它,查看内容并解决问题。
如果很难弄清楚 spark-job
做了什么,并且附近没有人可以帮助您,那么可能是时候把它扔掉并用好的 ol' spark-submit
代替。
你为什么不首先使用它?!
在Submitting Applications 中阅读spark-submit
。
【讨论】:
以上是关于如何在 spark-2.1.1-bin-hadoop2.7 的 bin 文件夹外运行 spark-jobs的主要内容,如果未能解决你的问题,请参考以下文章
如何在异步任务中调用意图?或者如何在 onPostExecute 中开始新的活动?